Amazonbot支持robots.txt：Anubis系统如何对抗AI激进抓取

根据最新报道，Amazonbot已开始遵守robots.txt协议。针对AI公司激进抓取网页导致服务器宕机的问题，网站管理员正部署名为Anubis的防御系统。该系统通过工作量证明（PoW）机制增加大规模抓取的经济成本，旨在保护网站资源不被AI过度消耗。未来，Anubis计划引入指纹识别技术以区分合法用户与无头浏览器，这反映了AI时代下网站托管“社会契约”的深刻变化。

核心要点

Amazonbot合规化：亚马逊旗下的爬虫程序Amazonbot已开始尊重网站的robots.txt设置，标志着AI抓取行为向规范化迈进。
AI抓取引发的危机：AI公司激进的网页抓取行为已导致部分网站出现宕机，严重影响了普通用户对资源的正常访问。
Anubis防御系统：网站管理员开始采用Anubis工具，利用类似Hashcash的工作量证明（PoW）方案来对抗大规模爬虫。
技术手段升级：防御方正从简单的拦截转向复杂的指纹识别（如字体渲染分析），以识别并限制无头浏览器的访问。
社会契约的重构：AI公司改变了网站托管的传统模式，迫使网站主采取强制JavaScript验证等手段来维护服务器稳定。

详细分析

AI激进抓取对网站生态的冲击

在当前的互联网环境下，AI公司为了训练大语言模型，正以前所未有的强度对全球网站进行数据抓取。原始新闻指出，这种“激进的抓取”行为已经超出了许多服务器的承载能力，直接导致了网站宕机。当服务器资源被爬虫耗尽时，合法的人类用户将无法访问这些资源。这种现象不仅是技术挑战，更触及了网站托管的根本逻辑。过去，网站主默认允许爬虫抓取以换取搜索引擎的流量，但AI公司的抓取行为往往只索取数据而不回馈流量，这种失衡迫使网站管理员不得不采取更为强硬的防御措施。

Anubis系统：利用工作量证明（PoW）反击

为了应对这一威胁，Anubis系统被引入作为一种折中方案。其核心逻辑借鉴了用于减少电子邮件垃圾邮件的Hashcash机制，即“工作量证明”（Proof-of-Work）。对于单个用户而言，完成一次PoW挑战所产生的额外计算负载几乎可以忽略不计，但对于需要同时抓取数百万个页面的大规模爬虫来说，这种计算成本会迅速累积，使得抓取行为在经济上变得不可持续。Anubis目前的实现方式要求用户必须启用现代JavaScript功能，这虽然对部分隐私插件（如JShelter）用户造成了不便，但在防御AI爬虫的斗争中，这被视为一种必要的权衡。

身份识别与未来防御趋势

目前的PoW挑战页面被视为一种临时解决方案。新闻内容显示，未来的防御方向将聚焦于更隐蔽、更精准的“指纹识别”技术。通过分析浏览器如何进行字体渲染等细微特征，系统可以识别出“无头浏览器”（Headless Browsers）——这是AI爬虫常用的工具。一旦能够精准区分合法的人类用户与自动化脚本，网站就可以在不干扰真实用户体验的情况下，精准拦截AI爬虫。这种技术演进预示着网站与AI公司之间将进入一场长期的技术博弈，而JavaScript的强制要求也反映了无JS访问模式在当前对抗环境下的局限性。

行业影响

该新闻揭示了AI行业对互联网基础设施产生的深远影响。首先，Amazonbot对robots.txt的遵守可能预示着大型科技公司开始意识到合规抓取的重要性，以避免法律和公关风险。其次，Anubis等工具的兴起标志着“反AI抓取”已成为网站运维的标配，这可能会推高AI模型训练的数据获取成本。最后，这种对抗正在改变互联网的开放性，为了防范AI，越来越多的内容可能被置于JS挑战或登录墙之后，传统的“无障碍访问”社交契约正在被重写。

常见问题

问题 1：什么是Anubis系统，它是如何工作的？

Anubis是一个用于保护服务器免受AI公司激进抓取的防御系统。它使用类似于Hashcash的工作量证明（PoW）方案，要求访问者完成一定的计算任务。对于普通用户，这种负载很小，但对于大规模爬虫，它会显著增加抓取成本，从而起到威慑作用。

问题 2：为什么访问受Anubis保护的网站必须开启JavaScript？

因为当前的AI爬虫经常模拟浏览器行为，Anubis需要通过JavaScript来执行PoW挑战和进行设备指纹识别。虽然这会对禁用JS的用户或使用JShelter插件的用户造成不便，但这是目前识别并拦截自动化AI抓取工具的有效手段。

问题 3：Amazonbot遵守robots.txt意味着什么？

这意味着网站管理员现在可以通过在robots.txt文件中设置规则，明确禁止或允许亚马逊的爬虫抓取特定内容。这为网站主提供了一种非技术对抗的手段来控制其数据如何被AI利用。

亚马逊爬虫Amazonbot开始遵守robots.txt：网站防御工具Anubis应对AI激进抓取挑战