网站防御新策略:Anubis利用工作量证明机制对抗AI恶意爬取
本文探讨了名为Anubis的新型网站保护工具,旨在应对AI公司激进抓取网页导致的服务中断问题。Anubis借鉴了Hashcash的工作量证明(PoW)方案,通过增加大规模抓取的计算成本来保护服务器。虽然目前该方案需要JavaScript支持并作为过渡手段,但其核心目标是应对AI时代下被改变的互联网托管“社交契约”,保护原创内容资源不被耗尽。
核心要点
- AI抓取危机:AI公司激进的网页抓取行为正导致网站频繁宕机,使普通用户无法访问资源。
- PoW防御机制:Anubis系统采用类似Hashcash的工作量证明(Proof-of-Work)方案,显著提高大规模爬虫的经济成本。
- 技术权衡:目前方案要求用户开启现代JavaScript,未来将转向更精准的浏览器指纹识别技术。
- 社交契约重塑:AI公司的行为改变了网站托管的传统社交契约,迫使网站主采取更严厉的准入措施。
详细分析
应对AI爬虫的防御机制:Anubis与PoW
根据原文信息,由于AI公司为了训练模型而进行的激进抓取行为,许多网站正面临严重的性能挑战甚至宕机。为了应对这一威胁,网站管理员开始部署名为“Anubis”的防御系统。Anubis的核心逻辑在于改变抓取的经济模型。它借鉴了最初为减少电子邮件垃圾邮件而提出的Hashcash方案,引入了工作量证明(Proof-of-Work)机制。
在这种机制下,当用户或爬虫尝试访问网站时,必须在本地完成一定的计算任务。对于个体用户而言,这种额外的计算负载微乎其微,几乎不会察觉;但对于需要同时抓取数百万个页面的AI爬虫来说,这些计算任务累积起来将产生巨大的算力需求和电力成本。这种策略有效地将资源消耗从服务器端转移到了请求端,从而保护了服务器的可用性。
技术现状与未来演进路径
目前,Anubis被定义为一个“折中”的占位解决方案。它要求客户端必须支持并启用现代JavaScript功能,这意味着像JShelter这样出于隐私保护目的禁用JS的插件会导致验证失败。虽然这在一定程度上影响了部分用户的体验,但开发者认为这是应对AI公司改变“社交契约”后的必要手段。
文章透露,Anubis的最终目标是减少对用户干扰。目前的PoW挑战只是第一步,开发团队正在投入时间研究更先进的浏览器指纹识别技术。例如,通过分析无头浏览器(Headless Browsers)在字体渲染等细节上的特征,来精准识别自动化程序。一旦指纹识别技术成熟,系统将能够直接放行合法用户,而无需展示PoW挑战页面,从而在保障安全的同时优化用户体验。
互联网托管社交契约的转变
原文提出了一个深刻的观点:AI公司已经改变了网站托管的“社交契约”。在过去,互联网内容在很大程度上是对爬虫开放的,前提是这些爬虫遵循一定的规范且不影响正常服务。然而,AI时代对数据的极度渴求打破了这种平衡。为了防止资源被无节制地榨取,网站主不得不采取技术手段进行防御。这种转变标志着互联网从“默认开放”向“防御性开放”的演进,内容提供者与AI训练者之间的博弈正在重塑网络访问的规则。
行业影响
- 反爬技术范式转移:传统的基于IP频率限制的防御手段正在失效,基于硬件计算成本(PoW)和深度指纹识别的防御技术将成为行业新标准。
- 访问门槛的提高:为了屏蔽AI爬虫,网站可能普遍要求更高的客户端环境(如强制JS、特定渲染能力),这可能对追求极致隐私和低功耗访问的用户产生负面影响。
- 内容保护成本上升:网站主不得不投入更多精力开发或部署像Anubis这样的防御系统,这增加了维护原创内容平台的运营成本和技术复杂度。
常见问题
什么是Anubis系统?
Anubis是一个旨在保护服务器免受AI公司激进抓取的防御系统。它通过要求访问者完成特定的工作量证明(PoW)任务,增加大规模自动化抓取的难度和经济成本,从而防止网站因爬虫过载而宕机。
为什么访问受Anubis保护的网站需要开启JavaScript?
因为目前的Anubis版本依赖现代JavaScript功能来执行验证挑战。虽然这会影响部分隐私插件(如JShelter)的使用,但这是目前区分人类用户与自动化爬虫、执行计算任务的必要技术手段。目前无JavaScript的解决方案仍在开发中。
Anubis是如何增加AI公司抓取成本的?
它利用了计算量的不对称性。单次访问所需的计算量对普通电脑来说微不足道,但当AI公司尝试进行大规模、高频率的抓取时,这些计算任务会迅速消耗大量的CPU资源和电力,使抓取行为在经济上变得极其昂贵且不可持续。


