Workflow
一分钟3.9万次请求,网站被AI爬虫“碾压”,Meta和OpenAI遭点名,开发者接连祭出神级反爬“武器”
36氪·2025-08-22 19:28

AI爬虫流量规模与分布 - AI爬虫占AI机器人总流量的80%,抓取程序占20% [1][2] - 爬虫峰值流量达每分钟39,000次请求,对未防护网站形成超负荷压力 [1][13] - Meta、Google和OpenAI三家占据AI爬虫流量的95%,其中Meta占52%、Google占23%、OpenAI占20% [4] 头部企业具体影响 - OpenAI通过ChatGPT-User和SearchBot占据抓取流量的98%,对网站影响最大 [5] - Perplexity抓取请求量占比1.53%,但影响力逐步上升 [5] - Meta爬虫活动近期持续加速,流量波动可达平常的2-3倍 [8] 实际运营影响案例 - 乌克兰3D模型网站Trilegangers因OpenAI使用600个IP抓取导致服务崩溃 [10] - 爬虫峰值每分钟1,000次请求即可能导致数据库依赖型网站卡顿或超时 [13] - 过量爬虫推高基础设施成本并导致网站数据分析失真 [15] 行业反制措施发展 - 开发者使用工作量证明工具Anubis,通过SHA-256计算挑战增加爬虫成本 [19] - 采用ZIP炸弹策略:返回伪装压缩文件使爬虫服务器解压时崩溃 [20] - Cloudflare每日处理超500亿次AI爬虫请求,通过AI迷宫消耗爬虫资源 [24] - 游戏化验证码(如DOOM挑战)被用于拦截爬虫但可能影响正常用户体验 [21][23] 行业应对建议 - 小型动态网站可通过配置robots.txt减少合规爬虫流量 [25] - 技术能力允许时可部署Anubis等系统进一步控制爬虫行为 [25] - 反爬机制可能误伤正常用户,需平衡防护与体验 [25]