Cloudflare 新规：AI 公司须在9月15日前区分搜索爬虫与训练爬虫，否则将被出版商网站默认屏蔽

Cloudflare 宣布，AI 公司必须在9月15日前将其用于搜索的爬虫与用于AI训练和智能体的爬虫分开，否则将在其合作的众多出版商网站上默认被屏蔽。该政策旨在推动AI公司为出版商内容付费，保护内容创作者的权益。

发布时间2026年7月2日 01:48（北京时间）

云计算与内容分发巨头 Cloudflare 于7月1日发布了一项重要政策更新，要求 AI 公司在今年9月15日之前，明确区分用于搜索引擎索引的爬虫和用于 AI 训练或智能体行为的爬虫。如果未能按时完成区分，Cloudflare 将默认在其庞大的出版商客户网络中对违规的爬虫实施拦截。

这一政策的核心目的是解决 AI 公司无偿抓取出版商内容用于模型训练的问题。长期以来，许多 AI 公司使用统一的爬虫工具同时覆盖搜索和训练需求，导致出版商难以控制其内容的使用方式。Cloudflare 的新规将迫使 AI 公司建立独立的爬虫标识，使出版商能够更精细地授权内容使用。

Cloudflare 表示，这一措施是为了响应出版商群体的普遍诉求。作为全球领先的 CDN 和网络安全服务商，Cloudflare 为大量新闻媒体和内容网站提供基础设施服务，其政策变化将直接影响 AI 公司获取训练数据的难度。

对于 AI 公司而言，这意味着他们需要重新设计爬虫架构，并可能被迫与出版商进行内容授权谈判。一些尚未建立付费合作关系的 AI 公司可能面临数据获取瓶颈。

该政策并非立即生效，而是设定了两个多月的缓冲期。Cloudflare 称将在9月15日后开始执行默认屏蔽，并鼓励 AI 公司利用这段时间完成技术调整。

业内分析认为，Cloudflare 此举将加速 AI 行业内容付费模式的普及。类似政策此前已有先例，例如 Reddit 和 Stack Overflow 等平台已开始向 AI 公司收取数据访问费用。

未来几个月，AI 公司如何应对这一政策将成为焦点。大型 AI 公司如 OpenAI 和 Google 可能更容易与出版商达成协议，而中小型 AI 企业则面临更大压力。

此外，该政策也可能引发关于爬虫定义的技术争论，例如如何区分“搜索”和“训练”行为。Cloudflare 表示将提供更详细的技术指南。

附近消息