一分钟3.9万次请求，网站被AI爬虫“碾压”，Meta和OpenAI遭点名，开发者接连祭出神级反爬“武器”

AI爬虫流量规模与分布 - AI爬虫占AI机器人总流量的80%，抓取程序占20% [1][2] - 爬虫峰值流量达每分钟39,000次请求，对未防护网站形成超负荷压力 [1][13] - Meta、Google和OpenAI三家占据AI爬虫流量的95%，其中Meta占52%、Google占23%、OpenAI占20% [4] 头部企业具体影响 - OpenAI通过ChatGPT-User和SearchBot占据抓取流量的98%，对网站影响最大 [5] - Perplexity抓取请求量占比1.53%，但影响力逐步上升 [5] - Meta爬虫活动近期持续加速，流量波动可达平常的2-3倍 [8] 实际运营影响案例 - 乌克兰3D模型网站Trilegangers因OpenAI使用600个IP抓取导致服务崩溃 [10] - 爬虫峰值每分钟1,000次请求即可能导致数据库依赖型网站卡顿或超时 [13] - 过量爬虫推高基础设施成本并导致网站数据分析失真 [15] 行业反制措施发展 - 开发者使用工作量证明工具Anubis，通过SHA-256计算挑战增加爬虫成本 [19] - 采用ZIP炸弹策略：返回伪装压缩文件使爬虫服务器解压时崩溃 [20] - Cloudflare每日处理超500亿次AI爬虫请求，通过AI迷宫消耗爬虫资源 [24] - 游戏化验证码（如DOOM挑战）被用于拦截爬虫但可能影响正常用户体验 [21][23] 行业应对建议 - 小型动态网站可通过配置robots.txt减少合规爬虫流量 [25] - 技术能力允许时可部署Anubis等系统进一步控制爬虫行为 [25] - 反爬机制可能误伤正常用户，需平衡防护与体验 [25]