AI时代基础设施内卷化困境 - 财报，业绩电话会，研报，新闻

AI时代基础设施内卷化困境

搜索文档

36氪· 2025-11-19 16:04

事件概述 - 2025年11月18日，Cloudflare发生全球性服务中断，导致约20%的网站服务受到影响，被称为“半个互联网的停摆” [1][10] - 故障高峰期间，网站故障追踪平台Downdetector累计收到逾210万条报错反馈 [10] - 事故导致Cloudflare股价盘中一度重挫约7% [10] 影响范围 - 全球约20%依赖Cloudflare提供服务的网站受到波及，包括ChatGPT、X（前Twitter）、亚马逊、Spotify、Zoom、Uber等知名服务 [1][10] - 部分监测工具（如Downdetector）因自身也使用Cloudflare服务而在事故中一同瘫痪 [10] - 故障持续了约三个小时，对全球AI数字生态系统造成重大冲击 [1][13] 事故原因 - 事故源于一次常规的数据库权限维护更新，工程师将“系统账号”改为“个人账号”以明确责任 [19] - 权限变更触发了一段老旧代码的缺陷，该代码负责生成用于识别网络机器人的“特征名单”（Feature File） [19] - 代码在权限升级后同时从默认数据库和备份数据库抓取数据，导致特征名单内容重复，长度膨胀一倍 [19] - Cloudflare核心转发软件有硬性规定：特征名单长度不能超过200条，以保障速度 [20] - 膨胀后的名单触发了软件的内存溢出保护机制（Panic），导致软件崩溃并切断了所有连接 [20] 行业与技术背景 - 导致崩溃的核心组件是“机器人管理系统（Bot Management）”，其主要设计目标是防御AI爬虫 [26] - 随着大模型训练对数据需求激增，互联网上自动化AI抓取程序泛滥，迫使防御系统不断升级算法，特征文件（即参数集）变得越来越复杂 [26] - 本次故障直接原因是特征数量突破了200个的硬编码限制，暴露了AI时代基础设施的“内卷化”困境：用复杂的AI防御系统对抗复杂的AI进攻程序 [26][28] - 事件揭示了全球互联网生态对单一底层服务提供商（Cloudflare）的高度依赖 [10] - 有团队（如吴恩达团队）在事故期间利用AI快速克隆了Cloudflare部分功能，实现了网站早期恢复 [31] 公司回应 - Cloudflare首席技术官（CTO）公开发布声明承认错误 [9] - 公司在其官方博客上对事故进行了详细复盘 [19][37] - 社交媒体信息显示，一名自称涉事工程师的员工在事故后被公司解雇 [34][35]

机器人管理系统（Bot Management）

机器人管理系统（Bot Management）

ChatGPT