Workflow
Web giant Cloudflare to block AI bots from scraping content by default
CloudflareCloudflare(US:NET) CNBC·2025-07-01 18:07

公司行动 - Cloudflare将默认阻止AI爬虫未经许可抓取网站内容 这一措施可能显著影响AI开发者的模型训练能力 [1] - 从周二开始 所有新注册Cloudflare的网站域名将被询问是否允许AI爬虫 从而赋予网站阻止数据抓取的权限 [2] - 该行动建立在2023年9月推出的工具基础上 当时允许发布者一键阻止AI爬虫 现在将此设为默认设置 [6] 行业背景 - Cloudflare作为内容分发网络(CDN) 通过缓存数据使用户更快获取在线内容 在全球互联网流量中占比约16% [2][3] - AI爬虫是自动化程序 专门从网站和数据库提取大量数据 用于训练OpenAI和谷歌等公司的大型语言模型 [4] - 传统互联网模式通过引导用户访问原始网站奖励创作者 而AI爬虫收集内容生成回答 使用户无需访问原始来源 [5] 行业影响 - AI爬虫被指控过度抓取数据 严重影响网站运营和用户体验 可能耗尽发布商的流量和在线广告收入 [5][7] - 该措施若有效实施 将阻碍AI聊天机器人收集训练和搜索数据 短期内影响模型训练 长期可能威胁模型可行性 [8] - OpenAI拒绝参与该计划 认为Cloudflare在系统中增加了中间环节 并强调其爬虫尊重发布者偏好 [6][7]