AI时代基础设施内卷化困境
搜索文档
AI杀死了AI,Cloudflare全球崩盘惨案,元凶已被原地解雇
36氪· 2025-11-19 16:04
事件概述 - 2025年11月18日,Cloudflare发生全球性服务中断,导致约20%的网站服务受到影响,被称为“半个互联网的停摆” [1][10] - 故障高峰期间,网站故障追踪平台Downdetector累计收到逾210万条报错反馈 [10] - 事故导致Cloudflare股价盘中一度重挫约7% [10] 影响范围 - 全球约20%依赖Cloudflare提供服务的网站受到波及,包括ChatGPT、X(前Twitter)、亚马逊、Spotify、Zoom、Uber等知名服务 [1][10] - 部分监测工具(如Downdetector)因自身也使用Cloudflare服务而在事故中一同瘫痪 [10] - 故障持续了约三个小时,对全球AI数字生态系统造成重大冲击 [1][13] 事故原因 - 事故源于一次常规的数据库权限维护更新,工程师将“系统账号”改为“个人账号”以明确责任 [19] - 权限变更触发了一段老旧代码的缺陷,该代码负责生成用于识别网络机器人的“特征名单”(Feature File) [19] - 代码在权限升级后同时从默认数据库和备份数据库抓取数据,导致特征名单内容重复,长度膨胀一倍 [19] - Cloudflare核心转发软件有硬性规定:特征名单长度不能超过200条,以保障速度 [20] - 膨胀后的名单触发了软件的内存溢出保护机制(Panic),导致软件崩溃并切断了所有连接 [20] 行业与技术背景 - 导致崩溃的核心组件是“机器人管理系统(Bot Management)”,其主要设计目标是防御AI爬虫 [26] - 随着大模型训练对数据需求激增,互联网上自动化AI抓取程序泛滥,迫使防御系统不断升级算法,特征文件(即参数集)变得越来越复杂 [26] - 本次故障直接原因是特征数量突破了200个的硬编码限制,暴露了AI时代基础设施的“内卷化”困境:用复杂的AI防御系统对抗复杂的AI进攻程序 [26][28] - 事件揭示了全球互联网生态对单一底层服务提供商(Cloudflare)的高度依赖 [10] - 有团队(如吴恩达团队)在事故期间利用AI快速克隆了Cloudflare部分功能,实现了网站早期恢复 [31] 公司回应 - Cloudflare首席技术官(CTO)公开发布声明承认错误 [9] - 公司在其官方博客上对事故进行了详细复盘 [19][37] - 社交媒体信息显示,一名自称涉事工程师的员工在事故后被公司解雇 [34][35]