返回列表
Cloudflare发布新规:要求AI公司区分搜索与训练爬虫,推动内容付费
行业新闻Cloudflare人工智能版权保护

Cloudflare发布新规:要求AI公司区分搜索与训练爬虫,推动内容付费

Cloudflare宣布了一项针对AI公司的新政策,要求其在9月15日前必须将用于搜索引擎索引的爬虫与用于AI模型训练及AI智能体的爬虫进行明确区分。若AI公司未能按时完成分类,将面临在众多出版商网站上被默认封禁的风险。此举旨在增强出版商对内容的控制力,并促使AI公司为使用版权内容付费。

TechCrunch AI

核心要点

  • 截止日期: AI公司必须在2026年9月15日之前完成爬虫分类。
  • 分类要求: 必须将用于搜索的爬虫与用于AI训练和AI智能体的爬虫完全分离。
  • 惩罚机制: 未能遵守规定的AI爬虫可能在Cloudflare支持的出版商站点上被默认屏蔽。
  • 政策目标: 推动AI公司与出版商达成内容付费协议,保护原创内容权益。

详细分析

爬虫身份透明化的强制要求

根据Cloudflare的新政策,AI公司不再能够使用单一的爬虫程序同时处理搜索索引和数据抓取任务。过去,这种模糊的界限使得AI公司可以在不支付费用的情况下,以“搜索索引”的名义抓取数据用于模型训练。现在,Cloudflare要求这些公司必须明确标识爬虫用途,以便网站管理员能够针对性地允许或拒绝特定类型的访问。

出版商控制权的回归

这一政策的核心在于赋予出版商更多的自主权。通过Cloudflare提供的技术手段,出版商可以轻松识别并拦截那些仅用于AI训练的爬虫,而保留能够带来流量的搜索爬虫。如果AI公司拒绝配合这种分类,它们将面临失去访问大量互联网实时数据的风险,这将直接影响其AI模型的迭代效率和智能体的响应能力。

行业影响

Cloudflare的这一举措标志着互联网内容生态的一个重要转折点。首先,它打破了AI公司长期以来免费抓取网页数据进行训练的惯例,将“内容付费”摆到了桌面之上。其次,这可能会引发行业连锁反应,促使其他CDN和网络安全服务商跟进类似政策。对于AI行业而言,这意味着获取高质量训练数据的成本将大幅上升,合规性要求也将变得更加严格。

常见问题

问题:为什么AI公司需要区分不同类型的爬虫?

因为出版商通常欢迎搜索爬虫来增加网站流量,但反对AI训练爬虫在不付费的情况下抓取数据。区分爬虫可以让出版商实现精准的访问控制。

问题:如果AI公司在9月15日之后仍不区分爬虫会怎样?

它们的爬虫将被Cloudflare识别为潜在的违规流量,并在许多合作伙伴和出版商的网站上被默认拦截,导致无法获取这些网站的最新内容。

问题:这项政策对普通用户有影响吗?

直接影响主要在B端,但长远来看,这可能导致AI工具获取信息的及时性发生变化,同时也可能推动更公平的内容创作生态。

相关新闻

ICML 2026 | 美团技术团队学术论文精选:探索机器学习前沿挑战与理论实践
行业新闻

ICML 2026 | 美团技术团队学术论文精选:探索机器学习前沿挑战与理论实践

美团技术团队在国际机器学习顶级学术会议ICML 2026上发布了学术论文精选。作为全球机器学习领域的风向标,ICML旨在探讨行业未来发展的关键挑战。美团通过展示具有重要理论价值和实际影响的研究成果,不仅推动了机器学习领域的技术进步,也体现了其在引领未来研究方向上的深度参与和技术贡献。

美团发布LongCat-2.0:首个五万卡国产算力集群训练的1.6T万亿参数模型
行业新闻

美团发布LongCat-2.0:首个五万卡国产算力集群训练的1.6T万亿参数模型

美团技术团队正式发布LongCat-2.0模型,这是业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数大模型。该模型总参数量达1.6T,原生支持1M超长上下文,专注于提升Agentic Coding任务中的代码理解与执行效率。LongCat-2.0的成功发布,标志着国产算力在支撑超大规模模型全链路开发方面取得了重大突破。

ACL 2026美团论文精选:聚焦大模型评测与推理优化,构建生成式AI新范式
行业新闻

ACL 2026美团论文精选:聚焦大模型评测与推理优化,构建生成式AI新范式

美团技术团队在计算语言学顶级国际会议ACL 2026中取得显著成果,共有6篇论文被收录。研究内容涵盖了大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化以及生成式推荐等多个前沿领域。这些研究展示了美团在自然语言处理(NLP)领域的深厚技术积淀,以及通过技术创新优化大模型推理能力与生成效果的最新进展。