事件概述 - Cloudflare发生持续约五个半小时的全球性服务中断,导致多款热门网站和AI服务下线[2] - 服务中断表现为出现错误提示及延迟升高,美国东部时间11月18日凌晨5点20分左右首次发现平台异常流量[2] - 此次服务中断于美国东部时间上午11点44分结束,是公司自2019年以来最严重的一次宕机[4][15] 影响范围 - 全球约20%的网站依赖Cloudflare管理和保护流量,此次宕机影响了包括X、Spotify、OpenAI的ChatGPT和Sora、Claude、Shopify等热门服务[2][3] - 故障波及了其应用服务产品套件,包括CDN服务、WARP虚拟专用网络(VPN)服务以及Cloudflare Access零信任网络访问(ZTNA)工具[2][3] - 公司股价在大范围宕机期间下跌了约3%[14] 故障原因 - 宕机根本原因是一个自动生成的威胁流量管理配置文件条目数量超出预期规模,导致为多项服务处理流量的软件系统崩溃[11] - 具体技术原因是底层ClickHouse查询行为的一项变更导致生成的文件中出现大量重复的"特征"行,使特征配置文件尺寸翻倍并超出软件限制[12][13] - 问题由公司的恶意机器人流量过滤功能引发,并非攻击所致,是机器人防护功能所依赖的一项服务中存在潜在漏洞在一次常规配置变更后开始崩溃[11] 故障处理与恢复 - 公司工程师在美国东部时间上午8:09查明问题并实施修复,控制面板服务于上午9:34恢复,上午9点42分修复根本原因[4] - 修复过程包括阻止超出预期大小的特征文件继续传播,并替换为早期版本[13] - 在故障排查过程中,工程师关闭了伦敦地区的WARP虚拟专用网络(VPN)服务[3] 系统架构与业务模式 - Cloudflare运营着全球约20%网站所依赖的内容分发网络,通过创建网站内容的多个副本并分布在全球各地数据中心来运作[11] - 该架构能为全球95%的人口提供50毫秒或更低的延迟,通过将流量处理任务卸载到CDN减轻网站运营商的服务器负载[11] - 公司提供网络安全功能,能够过滤恶意机器人程序及其他威胁,其机器人管理模块包含机器学习模型为流经网络的每一项请求生成机器人评分[11] 历史比较与行业评论 - 这是公司自2019年以来最严重的一次宕机,过去六年多里从未出现过导致大部分核心流量无法通过网络传输的情况[15] - 公司上一次重大宕机发生在6月,当时超过六项服务下线约两个半小时,由Workers KV数据存储平台的故障引发[15] - 有评论认为此次宕机暴露了公司自身服务之间过度的耦合问题,以及互联网对单一供应商的严重依赖[17]
Rust 闯大祸了!重写 53 天后 Cloudflare 搞出六年来最大失误,ChatGPT、Claude 集体失联