Cloudflare拦截AI爬虫新政策 - 互联网基础设施巨头Cloudflare宣布默认拦截所有未经许可的AI网络爬虫,要求AI公司必须先征得网站所有者同意才能抓取数据 [2] - 从7月初开始,新接入Cloudflare的站点默认设置为拒绝AI爬虫访问,同时推出"按次付费爬取"模式,允许网站向AI爬虫收费 [5] - 这一举措可能终结AI公司免费抓取网页数据训练模型的时代,改变互联网内容利益分配格局 [4][36] Cloudflare的技术能力与市场地位 - Cloudflare每天处理万亿级别网络请求,直接处理全球约16%的互联网流量,占据全球约五分之一网络流量 [20] - 2022年推出的Turnstile"无感验证"方案通过分析浏览器环境、鼠标轨迹等数据识别真人用户,2023年宣布彻底淘汰传统验证码 [10][13] - 验证系统结合行为分析、浏览器指纹和机器学习,能识别毫秒级翻页等爬虫特征,准确区分真人流量和AI爬虫流量 [17][18][32] AI爬虫与版权争议现状 - Anthropic使用数百万本书籍训练模型被诉,但法院裁定其符合"合理使用"原则 [23] - Meta在作家集体诉讼中胜诉,但法官明确表示裁决不意味着其使用版权材料训练模型合法 [24] - AI爬虫高频抓取行为可能使服务器不堪重负,类似DDoS攻击,内容创作者成果被无偿用于训练AI [25] 商业模式变革与行业影响 - Cloudflare将安全防护网升级为AI时代"收费关卡",推出Pay Per Crawl模式,让网站主可向AI公司收费 [35] - 公司CEO表示希望建立多方共赢模式,帮助创作者将未货币化的内容使用变为新收入来源 [37] - 作为全球五分之一网络流量的"安检闸口",Cloudflare在内容提供方和AI公司之间扮演关键基础设施角色 [36][39] 验证码系统的功能演变 - 传统验证码主要用于防范批量注册等脚本行为,现在重心转向专门识别和阻挡AI爬虫 [15][30] - Turnstile验证对真人几乎隐形,但对AI爬虫形成高门槛,背后增加了"筛查AI"的新使命 [14][29][33] - 系统能自动判断"正常人类通过"或"GPT爬虫拦截",在互联网底层实时运行 [33]
你的验证码又升级了:虐完人类不过瘾,现在要收拾AI了