Rust闯大祸了，重写53天后Cloudflare搞出六年来最大失误，ChatGPT、Claude集体失联

事件概述 - 美国东部时间11月18日凌晨，Cloudflare遭遇持续约五个半小时的大范围服务中断，导致多款热门网站和AI服务下线 [1] - 服务中断表现为出现错误提示及延迟升高，影响了包括CDN、应用服务产品套件、WARP VPN及Cloudflare Access等多项服务 [2][3] - 此次是该公司自2019年以来最严重的一次宕机，导致其股价下跌了约3% [12] 影响范围 - 全球约20%的网站依赖Cloudflare管理和保护流量，此次宕机影响了OpenAI的ChatGPT和Sora、Claude、Shopify、X、Spotify、Truth Social、Canva、Letterboxd以及美国新泽西州公共交通系统官网等 [1][2] - 故障还波及了为云端及本地工作负载提供CDN功能的应用服务产品套件，以及保护这些工作负载应用程序接口的网络安全功能 [2] 故障原因 - 宕机根本原因是一个自动生成的威胁流量管理配置文件条目数量超出预期规模，导致为多项服务处理流量的软件系统崩溃 [9] - 具体而言，底层ClickHouse查询行为的一项变更导致生成的特征配置文件中出现大量重复行，文件大小翻倍后超出了软件设定的限制，引发核心代理系统向流量返回HTTP 5xx错误码 [10][11] - 此次宕机由公司的恶意机器人流量过滤功能引发，并非攻击所致，其机器人防护功能所依赖的一项服务在常规配置变更后出现潜在漏洞 [9] 故障时间线与恢复过程 - 故障始于美国东部时间11月18日凌晨5点20分左右，Cloudflare发现平台出现异常流量 [2] - 约一个半小时后，公司发布公告告知客户此次宕机事件 [2] - 上午8点09分，公司表示问题已查明并正在实施修复，随后重新启用了伦敦地区的WARP服务 [3] - 控制面板服务于上午9点34分恢复，上午9点42分，公司宣布已修复宕机的根本原因 [3] - 服务中断最终于上午11点44分结束，整个持续时间为五个半小时 [1][3] 公司响应与后续措施 - Cloudflare承认此次是六年来最严重的宕机，并深感辜负了客户信任 [12] - 公司公布了后续加固系统的步骤，包括强化对内部生成配置文件的接收校验、为相关功能增设更多全局紧急关闭开关、避免错误报告占用过多系统资源，以及全面审查所有核心代理模块的错误场景故障模式 [12] 行业影响与评论 - 事件暴露了互联网对单一服务供应商的严重依赖性问题，有评论指出此类宕机事件充分暴露了互联网的脆弱性 [13] - 有分析认为，此次宕机暴露了Cloudflare自身服务之间过度的耦合问题，导致控制面板无法访问，影响了服务恢复速度 [13] - Cloudflare平台通过将网站内容分布在全球数据中心，能为全球95%的人口提供50毫秒或更低的延迟，其架构还将流量处理任务卸载到CDN以减轻网站运营商服务器负载 [8][9]