WARP虚拟专用网络(VPN)服务
搜索文档
一行 Rust 代码,全球一半流量瘫痪!Cloudflare 用六年最惨宕机,给所有技术人上了一课
程序员的那些事· 2025-11-19 19:30
事件概述 - 11月18日,Cloudflare公司遭遇持续约五个半小时的宕机事故,导致多款热门网站和AI服务下线[2] - 服务中断从美国东部时间凌晨5点20分左右开始,至上午11点44分结束,受影响应用包括OpenAI的ChatGPT和Sora、Claude、Shopify以及美国新泽西州公共交通系统官网[2] 影响范围 - 全球约20%的网站依赖Cloudflare管理和保护流量,此次宕机影响了X、Spotify、ChatGPT、Truth Social、Canva、Letterboxd等热门平台[3] - 故障波及CDN服务、应用服务产品套件、WARP VPN服务以及Cloudflare Access零信任网络访问工具[2][3] - 宕机期间Cloudflare股价下跌约3%[13] 故障时间线 - 美国东部时间5:20左右首次发现异常流量,7点前发布首次状态公告[2] - 8:09查明问题并实施修复,8:13恢复伦敦地区WARP服务,9:34恢复控制面板服务,9:42修复根本原因[4] - 整个恢复过程持续监控,最终于11:44全面恢复服务[4] 技术原因分析 - 根本原因是数据库用户权限变更导致SQL查询返回重复数据,使特征配置文件大小翻倍[5][10] - Rust代码中第82行使用unwrap方法处理配置文件时出现故障,当配置文件超出预期规模时引发系统崩溃[7][8] - 底层ClickHouse查询行为变更导致生成文件中出现大量重复特征行,文件大小超出软件限制[11][12] - 公司误判初始症状为DDoS攻击,延误了故障诊断[5][12] 系统架构背景 - Cloudflare平台通过全球数据中心分发网站内容,为全球95%人口提供50毫秒或更低延迟[10] - 机器人管理模块每几分钟更新一次特征配置文件,用于机器学习模型生成机器人评分[10] - 此次宕机是公司自2019年以来最严重的一次中断,也是六年来首次导致大部分核心流量无法通过网络传输[14] 行业影响与反思 - 事件暴露互联网对单一供应商的过度依赖问题,引发对互联网脆弱性的讨论[15] - 故障显示公司服务之间存在过度耦合,导致控制面板无法访问进而影响恢复速度[14] - 公司计划通过强化配置文件校验、增设紧急关闭开关、审查错误场景故障模式等方式加固系统[14]
Rust闯大祸了,重写53天后Cloudflare搞出六年来最大失误,ChatGPT、Claude集体失联
36氪· 2025-11-19 18:08
事件概述 - 美国东部时间11月18日凌晨,Cloudflare遭遇持续约五个半小时的大范围服务中断,导致多款热门网站和AI服务下线 [1] - 服务中断表现为出现错误提示及延迟升高,影响了包括CDN、应用服务产品套件、WARP VPN及Cloudflare Access等多项服务 [2][3] - 此次是该公司自2019年以来最严重的一次宕机,导致其股价下跌了约3% [12] 影响范围 - 全球约20%的网站依赖Cloudflare管理和保护流量,此次宕机影响了OpenAI的ChatGPT和Sora、Claude、Shopify、X、Spotify、Truth Social、Canva、Letterboxd以及美国新泽西州公共交通系统官网等 [1][2] - 故障还波及了为云端及本地工作负载提供CDN功能的应用服务产品套件,以及保护这些工作负载应用程序接口的网络安全功能 [2] 故障原因 - 宕机根本原因是一个自动生成的威胁流量管理配置文件条目数量超出预期规模,导致为多项服务处理流量的软件系统崩溃 [9] - 具体而言,底层ClickHouse查询行为的一项变更导致生成的特征配置文件中出现大量重复行,文件大小翻倍后超出了软件设定的限制,引发核心代理系统向流量返回HTTP 5xx错误码 [10][11] - 此次宕机由公司的恶意机器人流量过滤功能引发,并非攻击所致,其机器人防护功能所依赖的一项服务在常规配置变更后出现潜在漏洞 [9] 故障时间线与恢复过程 - 故障始于美国东部时间11月18日凌晨5点20分左右,Cloudflare发现平台出现异常流量 [2] - 约一个半小时后,公司发布公告告知客户此次宕机事件 [2] - 上午8点09分,公司表示问题已查明并正在实施修复,随后重新启用了伦敦地区的WARP服务 [3] - 控制面板服务于上午9点34分恢复,上午9点42分,公司宣布已修复宕机的根本原因 [3] - 服务中断最终于上午11点44分结束,整个持续时间为五个半小时 [1][3] 公司响应与后续措施 - Cloudflare承认此次是六年来最严重的宕机,并深感辜负了客户信任 [12] - 公司公布了后续加固系统的步骤,包括强化对内部生成配置文件的接收校验、为相关功能增设更多全局紧急关闭开关、避免错误报告占用过多系统资源,以及全面审查所有核心代理模块的错误场景故障模式 [12] 行业影响与评论 - 事件暴露了互联网对单一服务供应商的严重依赖性问题,有评论指出此类宕机事件充分暴露了互联网的脆弱性 [13] - 有分析认为,此次宕机暴露了Cloudflare自身服务之间过度的耦合问题,导致控制面板无法访问,影响了服务恢复速度 [13] - Cloudflare平台通过将网站内容分布在全球数据中心,能为全球95%的人口提供50毫秒或更低的延迟,其架构还将流量处理任务卸载到CDN以减轻网站运营商服务器负载 [8][9]