Web giant Cloudflare to block AI bots from scraping content by default

公司行动 - Cloudflare将默认阻止AI爬虫未经许可抓取网站内容这一措施可能显著影响AI开发者的模型训练能力 [1] - 从周二开始所有新注册Cloudflare的网站域名将被询问是否允许AI爬虫从而赋予网站阻止数据抓取的权限 [2] - 该行动建立在2023年9月推出的工具基础上当时允许发布者一键阻止AI爬虫现在将此设为默认设置 [6] 行业背景 - Cloudflare作为内容分发网络(CDN) 通过缓存数据使用户更快获取在线内容在全球互联网流量中占比约16% [2][3] - AI爬虫是自动化程序专门从网站和数据库提取大量数据用于训练OpenAI和谷歌等公司的大型语言模型 [4] - 传统互联网模式通过引导用户访问原始网站奖励创作者而AI爬虫收集内容生成回答使用户无需访问原始来源 [5] 行业影响 - AI爬虫被指控过度抓取数据严重影响网站运营和用户体验可能耗尽发布商的流量和在线广告收入 [5][7] - 该措施若有效实施将阻碍AI聊天机器人收集训练和搜索数据短期内影响模型训练长期可能威胁模型可行性 [8] - OpenAI拒绝参与该计划认为Cloudflare在系统中增加了中间环节并强调其爬虫尊重发布者偏好 [6][7]