Cloudflare CEO Apologizes for 'Unacceptable' Outage and Explains What Went Wrong

事件概述 - Cloudflare在周二发生服务中断，导致包括OpenAI、Spotify、X、Grindr、Letterboxd和Canva在内的许多网站和服务无法访问 [1] - 中断始于太平洋时间凌晨3:30左右，大部分受影响的站点和服务在超过三小时后恢复，当天结束时一切恢复正常 [3] 中断原因 - 中断并非由网络攻击直接或间接引起，最初公司怀疑是“超大规模DDoS攻击” [4] - 实际原因是内部软件故障，Cloudflare一个数据库的变更生成了一个大于预期的功能文件，导致软件无法运行而失败 [5] - 公司在识别问题后，用早期版本替换了有问题的文件，太平洋时间上午6:30大部分流量恢复正常 [5] 影响范围 - Cloudflare被约20%的网站使用，是提供互联网关键基础设施的服务之一 [2] - Downdetector在中断期间收到超过210万份问题报告，其中美国超过43.5万份，英国、日本和德国是其次受影响最严重的国家 [7] - 其他受影响公司收到的报告数量包括：X（320,549份）、英雄联盟（130,260份）、OpenAI（81,077份）、Spotify（93,377份）和Grindr（25,031份） [8] 事件时间线 - Cloudflare在太平洋时间凌晨3:48首次确认中断，并发布声明称正在调查影响多个客户的问题 [10] - 太平洋时间凌晨5:09，公司表示问题已确定，正在实施修复，随后几小时错误开始减少，服务逐渐恢复 [10] - 太平洋时间上午9:14，Cloudflare补充说大多数服务已恢复正常，并将尽快提供完整的事件后调查细节 [11] 行业影响与风险 - 此次中断发生在上个月亚马逊网络服务中断之后，引发了对互联网大片区域依赖少数集中式服务是否明智或安全的质疑 [12] - 分析师指出，这次3小时20分钟的中断，考虑到停机时间和下游影响，可能造成约2.5亿至3亿美元的直接和间接损失 [13] - 重大中断也凸显了人们对日益依赖人工智能的担忧，特别是人工智能日常运行所依赖的基础设施的脆弱性 [13] - 此次问题暴露了数千亿甚至万亿美元的人工智能投资，其可靠性仅等同于其最不受审查的第三方基础设施 [14]