事件概述 - 微软Azure云服务于2025年10月29日UTC时间16:00发生大规模全球性中断,预计完全恢复时间为当日UTC时间23:20,持续近9个小时 [5][14] - 故障追踪网站Downdetector在数小时内累计收到全球多个地区上千起服务中断报告 [1] 影响范围 - 微软多项核心服务受影响,包括Office 365、Minecraft、Xbox Live、Copilot及Azure门户网站等 [7] - 受影响的Azure技术服务清单广泛,涵盖App Service、Azure Active Directory、Azure SQL Database等数十项关键服务 [7] - 依赖Azure的企业服务遭殃,例如阿拉斯加航空在线值机服务中断,医疗机构Santé Québec病患访问系统暂停,星巴克、克罗格等网站出现服务中断高峰 [8][11] 事件原因 - 事故核心原因在于Azure Front Door服务中一次意外的租户配置更改,导致无效配置状态并引发连锁反应 [12] - 配置更改导致大量AFD节点异常,健康节点流量分配失衡,进而放大故障影响 [12] - 用于阻止错误部署的防护机制因软件缺陷失效,使异常配置绕过了安全校验 [13] 处理与恢复 - 微软采取紧急措施阻止新配置更改,并分阶段在全球部署“最后一次已知正常”的配置版本以恢复服务 [13] - 公司审查并增加了新的验证与回滚机制,以防止未来发生类似问题 [13] - 截至报告发布,客户对AFD的配置修改仍处于暂时冻结状态 [15] 业务与财务背景 - 此次宕机恰逢微软发布2026财年第一季度财报,财报显示Azure及其他云服务收入同比增长40%,为增速最快的业务板块 [6] 行业影响与评论 - 此次事件发生在一周前亚马逊AWS全球宕机之后,引发对云服务高度集中化带来的系统性脆弱性的担忧 [15][19] - 行业专家指出,此类宕机在几小时内可能造成数千万美元损失,并强调系统韧性必须成为董事会层面的议题 [21] - 事件凸显了互联网高度互联性,一次配置错误可能迅速波及全球数百万用户的服务 [21]
大半个互联网又崩了,全球第二大云突然宕机,只因微软的一次错误配置