Workflow
机器人管理
icon
搜索文档
Rust闯大祸了,重写53天后Cloudflare搞出六年来最大失误,ChatGPT、Claude集体失联
36氪· 2025-11-19 18:08
事件概述 - 美国东部时间11月18日凌晨,Cloudflare遭遇持续约五个半小时的大范围服务中断,导致多款热门网站和AI服务下线 [1] - 服务中断表现为出现错误提示及延迟升高,影响了包括CDN、应用服务产品套件、WARP VPN及Cloudflare Access等多项服务 [2][3] - 此次是该公司自2019年以来最严重的一次宕机,导致其股价下跌了约3% [12] 影响范围 - 全球约20%的网站依赖Cloudflare管理和保护流量,此次宕机影响了OpenAI的ChatGPT和Sora、Claude、Shopify、X、Spotify、Truth Social、Canva、Letterboxd以及美国新泽西州公共交通系统官网等 [1][2] - 故障还波及了为云端及本地工作负载提供CDN功能的应用服务产品套件,以及保护这些工作负载应用程序接口的网络安全功能 [2] 故障原因 - 宕机根本原因是一个自动生成的威胁流量管理配置文件条目数量超出预期规模,导致为多项服务处理流量的软件系统崩溃 [9] - 具体而言,底层ClickHouse查询行为的一项变更导致生成的特征配置文件中出现大量重复行,文件大小翻倍后超出了软件设定的限制,引发核心代理系统向流量返回HTTP 5xx错误码 [10][11] - 此次宕机由公司的恶意机器人流量过滤功能引发,并非攻击所致,其机器人防护功能所依赖的一项服务在常规配置变更后出现潜在漏洞 [9] 故障时间线与恢复过程 - 故障始于美国东部时间11月18日凌晨5点20分左右,Cloudflare发现平台出现异常流量 [2] - 约一个半小时后,公司发布公告告知客户此次宕机事件 [2] - 上午8点09分,公司表示问题已查明并正在实施修复,随后重新启用了伦敦地区的WARP服务 [3] - 控制面板服务于上午9点34分恢复,上午9点42分,公司宣布已修复宕机的根本原因 [3] - 服务中断最终于上午11点44分结束,整个持续时间为五个半小时 [1][3] 公司响应与后续措施 - Cloudflare承认此次是六年来最严重的宕机,并深感辜负了客户信任 [12] - 公司公布了后续加固系统的步骤,包括强化对内部生成配置文件的接收校验、为相关功能增设更多全局紧急关闭开关、避免错误报告占用过多系统资源,以及全面审查所有核心代理模块的错误场景故障模式 [12] 行业影响与评论 - 事件暴露了互联网对单一服务供应商的严重依赖性问题,有评论指出此类宕机事件充分暴露了互联网的脆弱性 [13] - 有分析认为,此次宕机暴露了Cloudflare自身服务之间过度的耦合问题,导致控制面板无法访问,影响了服务恢复速度 [13] - Cloudflare平台通过将网站内容分布在全球数据中心,能为全球95%的人口提供50毫秒或更低的延迟,其架构还将流量处理任务卸载到CDN以减轻网站运营商服务器负载 [8][9]
Rust 闯大祸了!重写 53 天后 Cloudflare 搞出六年来最大失误,ChatGPT、Claude 集体失联
AI前线· 2025-11-19 15:00
事件概述 - Cloudflare发生持续约五个半小时的全球性服务中断,导致多款热门网站和AI服务下线[2] - 服务中断表现为出现错误提示及延迟升高,美国东部时间11月18日凌晨5点20分左右首次发现平台异常流量[2] - 此次服务中断于美国东部时间上午11点44分结束,是公司自2019年以来最严重的一次宕机[4][15] 影响范围 - 全球约20%的网站依赖Cloudflare管理和保护流量,此次宕机影响了包括X、Spotify、OpenAI的ChatGPT和Sora、Claude、Shopify等热门服务[2][3] - 故障波及了其应用服务产品套件,包括CDN服务、WARP虚拟专用网络(VPN)服务以及Cloudflare Access零信任网络访问(ZTNA)工具[2][3] - 公司股价在大范围宕机期间下跌了约3%[14] 故障原因 - 宕机根本原因是一个自动生成的威胁流量管理配置文件条目数量超出预期规模,导致为多项服务处理流量的软件系统崩溃[11] - 具体技术原因是底层ClickHouse查询行为的一项变更导致生成的文件中出现大量重复的"特征"行,使特征配置文件尺寸翻倍并超出软件限制[12][13] - 问题由公司的恶意机器人流量过滤功能引发,并非攻击所致,是机器人防护功能所依赖的一项服务中存在潜在漏洞在一次常规配置变更后开始崩溃[11] 故障处理与恢复 - 公司工程师在美国东部时间上午8:09查明问题并实施修复,控制面板服务于上午9:34恢复,上午9点42分修复根本原因[4] - 修复过程包括阻止超出预期大小的特征文件继续传播,并替换为早期版本[13] - 在故障排查过程中,工程师关闭了伦敦地区的WARP虚拟专用网络(VPN)服务[3] 系统架构与业务模式 - Cloudflare运营着全球约20%网站所依赖的内容分发网络,通过创建网站内容的多个副本并分布在全球各地数据中心来运作[11] - 该架构能为全球95%的人口提供50毫秒或更低的延迟,通过将流量处理任务卸载到CDN减轻网站运营商的服务器负载[11] - 公司提供网络安全功能,能够过滤恶意机器人程序及其他威胁,其机器人管理模块包含机器学习模型为流经网络的每一项请求生成机器人评分[11] 历史比较与行业评论 - 这是公司自2019年以来最严重的一次宕机,过去六年多里从未出现过导致大部分核心流量无法通过网络传输的情况[15] - 公司上一次重大宕机发生在6月,当时超过六项服务下线约两个半小时,由Workers KV数据存储平台的故障引发[15] - 有评论认为此次宕机暴露了公司自身服务之间过度的耦合问题,以及互联网对单一供应商的严重依赖[17]