实时 AI 消息
Cloudflare 新规:AI 公司须在9月15日前区分搜索爬虫与训练爬虫,否则将被出版商网站默认屏蔽
Cloudflare 宣布,AI 公司必须在9月15日前将其用于搜索的爬虫与用于AI训练和智能体的爬虫分开,否则将在其合作的众多出版商网站上默认被屏蔽。该政策旨在推动AI公司为出版商内容付费,保护内容创作者的权益。
云计算与内容分发巨头 Cloudflare 于7月1日发布了一项重要政策更新,要求 AI 公司在今年9月15日之前,明确区分用于搜索引擎索引的爬虫和用于 AI 训练或智能体行为的爬虫。如果未能按时完成区分,Cloudflare 将默认在其庞大的出版商客户网络中对违规的爬虫实施拦截。
这一政策的核心目的是解决 AI 公司无偿抓取出版商内容用于模型训练的问题。长期以来,许多 AI 公司使用统一的爬虫工具同时覆盖搜索和训练需求,导致出版商难以控制其内容的使用方式。Cloudflare 的新规将迫使 AI 公司建立独立的爬虫标识,使出版商能够更精细地授权内容使用。

Cloudflare 表示,这一措施是为了响应出版商群体的普遍诉求。作为全球领先的 CDN 和网络安全服务商,Cloudflare 为大量新闻媒体和内容网站提供基础设施服务,其政策变化将直接影响 AI 公司获取训练数据的难度。
对于 AI 公司而言,这意味着他们需要重新设计爬虫架构,并可能被迫与出版商进行内容授权谈判。一些尚未建立付费合作关系的 AI 公司可能面临数据获取瓶颈。
该政策并非立即生效,而是设定了两个多月的缓冲期。Cloudflare 称将在9月15日后开始执行默认屏蔽,并鼓励 AI 公司利用这段时间完成技术调整。
业内分析认为,Cloudflare 此举将加速 AI 行业内容付费模式的普及。类似政策此前已有先例,例如 Reddit 和 Stack Overflow 等平台已开始向 AI 公司收取数据访问费用。
未来几个月,AI 公司如何应对这一政策将成为焦点。大型 AI 公司如 OpenAI 和 Google 可能更容易与出版商达成协议,而中小型 AI 企业则面临更大压力。
此外,该政策也可能引发关于爬虫定义的技术争论,例如如何区分“搜索”和“训练”行为。Cloudflare 表示将提供更详细的技术指南。
为什么重要
推动 AI 行业内容付费规范化,迫使 AI 公司调整爬虫策略,可能引发新一轮数据授权谈判。