Workflow
互联网基础设施
icon
搜索文档
一个网站的更新,让外国人集体断网6小时
虎嗅APP· 2025-11-20 18:18
文章核心观点 - Cloudflare的一次技术配置更新导致全球性服务中断,持续时间近6小时,影响了包括推特、ChatGPT、Canva、英雄联盟及瓦罗兰特等大量知名网站和在线服务[5][6][9][76] - 事件凸显了互联网基础设施高度集中化的脆弱性,少数核心服务商的故障可能引发连锁反应,对全球网络稳定性构成系统性风险[36][43][87][88] - 企业级用户因服务中断面临直接经济损失,但小公司缺乏资源实施多云部署等备用方案,暴露出行业资源分配不均的结构性问题[81][84] Cloudflare服务中断影响范围 - 服务中断导致用户无法访问推特、ChatGPT、Canva等平台,游戏服务如英雄联盟和瓦罗兰特出现服务器连接问题,甚至状态监测网站Down Detector也同时瘫痪[7][9][12] - 全球用户通过社交媒体表达不满,相关推文获得60万次阅读量,反映出事件引发的广泛社会关注[16][17][19][29] - 故障表现为间歇性服务恢复,用户体验出现"时好时坏"的波动状态,增加了问题定位的复杂性[64][68][70] 事故技术原因分析 - 直接原因为数据库权限调整导致Bot管理系统的特征文件生成机制异常:系统请求时多个数据库分片同时响应,使特征数据从正常60条激增至超200条上限,触发系统保护机制崩溃[51][56][58][61][62] - Cloudflare采用分片存储架构(ClickHouse数据库),将数据分布在全球330多个数据中心,但配置变更使查询请求被全部分片接收,造成数据重复[52][54][57] - 系统设计存在容错缺陷:特征文件上限设置为200条,未考虑极端情况下的数据冗余风险[59][60] Cloudflare业务模式与行业地位 - 公司主要提供CDN加速、DDoS防护、Web应用防火墙及DNS服务,全球部署330个数据中心,通过就近访问原则优化网站加载速度[36][38] - 商业模式类似"互联网物业",承担流量过滤、安全防护及缓存优化功能,服务中断时所有经其代理的网站访问均被阻断[36][39][41] - 作为行业龙头曾成功抵御7.3Tbps规模的DDoS攻击,但此次内部配置错误暴露其运维体系的单点故障风险[73][74] 行业系统性风险启示 - 基础设施服务商故障产生放大效应:对比上个月AWS宕机影响60个国家1700万用户、3500家企业,每小时损失超7500万美元,本次事件进一步印证集中化架构的脆弱性[81][82] - 企业用户缺乏有效避险手段,多云部署方案因成本与复杂度难以普及,尤其对中小型企业形成资源壁垒[84] - 行业需加强容错机制建设,但类似事故反复发生(AWS、Cloudflare连续宕机)表明技术保障承诺与实际稳定性之间存在差距[80][85]