Workflow
X(推特)
icon
搜索文档
Cloudflare全球故障,搞瘫了半个互联网!
猿大侠· 2025-11-21 12:11
事件概述 - 全球网络基础设施服务商Cloudflare于北京时间2025年11月18日19:20至22:30发生重大故障,核心故障持续约3小时,完全恢复耗时约6小时 [1][8][9][10] - 故障根本原因非网络攻击,系内部数据库权限变更触发潜伏Bug,导致机器人管理配置文件体积异常膨胀,进而引发全球节点软件崩溃 [8] - 故障引发连锁反应,全球近半数互联网服务受到影响,大量网站出现访问错误或加载失败 [13] 故障时间线 - 19:05:工程师部署关于ClickHouse数据库访问控制的变更 [5] - 19:28:变更生效,故障开始 [6] - 19:32-21:05:Cloudflare团队介入调查 [8] - 21:05:实施第一阶段缓解措施,但核心问题仍存在 [8] - 21:37:团队找到故障根本原因 [8] - 22:24:停止生成异常配置文件,并强制节点回滚到旧版正常文件 [7] - 22:30:核心服务恢复 [8][9] - 次日01:06:所有系统完全恢复正常 [10] 影响范围与表现 - 影响范围为全球性,涉及社交媒体、人工智能平台、在线工具及游戏服务等多个领域 [13][14] - 具体受影响服务包括AI圈的ChatGPT、Claude、Perplexity,社交圈的X (Twitter)、Spotify、Discord、Grindr,以及游戏圈的英雄联盟、Minecraft服务器等 [14] - 用户访问时出现500错误、"Internal Server Error"提示,或卡在"正在验证您是否是人类"的验证页面 [15] - 由于故障发生在北京时间晚高峰时段,国内用户感知较为明显 [15] 公司业务与行业地位 - Cloudflare主要提供CDN服务,通过分布在全球各地的服务器缓存网站内容,使用户能从距离最近、延迟较低的节点获取数据 [17] - 公司在网络基础设施中扮演关键角色,其故障对全球互联网服务有重大影响,有网友调侃"CF一挂掉,全球科研水平下降1000倍" [17] 后续处理 - Cloudflare暂未公布赔付计划 [19] - 根据其官网SLA,对Business和Enterprise计划客户,如果可用性低于99.9%可获部分月费退款,本次约4.5小时中断预计可获得10-20%的信用补偿 [19]