Cloudflare宕机，互联网世界怎么又断网了？

事件概述 - Cloudflare一次例行升级因数据库权限调整异常，导致生成的特征文件体积比平时大了一倍，引发全球性技术故障[1] - 故障导致包括X、ChatGPT、Spotify在内的多家海外互联网巨头服务在数小时内几乎瘫痪，用户遭遇"InternalServerError"报错页面[1] - 事故并非外部攻击导致的人为事故，而是由Cloudflare内部引发[1] 故障机制 - 异常特征文件被快速推送至全球数千台边缘节点，核心程序无法解析导致崩溃，形成多国多地区节点相近时刻故障的"全球同步掉线"场景[3] - 系统每隔几分钟自动检查更新，导致节点在旧文件下短暂恢复后，又被新错误文件覆盖再次宕机，出现"恢复—再报错—再恢复"的循环[3] - 工程师最终追踪到特征文件问题，暂停错误文件更新后情况逐渐稳定，并向全球节点重新推送正常版本，错误量在短时间内迅速下降[3] 市场影响与反应 - 事发当日Cloudflare盘前股价一度下跌超过2%[5] - Cloudflare首席技术官公开致歉，承认网络出现严重问题，"辜负了依赖我们的客户和整个互联网"[5] - 此次宕机的影响被记录为近期互联网基础设施事故中"规模最为罕见的之一"[3] 行业结构性问题 - Cloudflare承载着全球大约五分之一的互联网流量，其故障导致依赖其代理层的成千上万家服务在极短时间内同步受到冲击[7] - 此次事故与上个月前AWS的中断类似，当时共有超过两千家服务受影响，累计超过八百万条用户报错被记录[7] - 事件揭示了互联网命运过度依附于少数几家巨头的问题，在云计算领域，全球前三家巨头掌控了超过近七成的基础设施[7][8] - 基于当前行业集中度，类似的故障预计还会再度发生，且问题将越来越无法回避[10]