Xbox Live
搜索文档
大半个互联网又崩了!全球第二大云突然宕机,只因微软的一次错误配置
猿大侠· 2025-11-04 12:07
微软Azure全球性服务中断事件 - 微软Azure于2025年10月29日UTC时间16:00出现大规模全球性服务中断,预计完全恢复时间为当日UTC时间23:20,持续近9小时[6][26] - 故障追踪网站Downdetector统计显示,全球多个地区在数小时内累计上千起服务中断报告[2] - 服务中断恰逢微软发布2026财年第一季度财报,Azure及其他云服务收入同比增长40%,是增速最快的业务板块[8] 受影响的服务与客户范围 - 微软核心业务服务如Office 365、Minecraft、Xbox Live和Copilot均出现不同程度中断[10] - 受影响的Azure服务清单广泛,包括App Service、Azure Active Directory B2C、Azure SQL Database等近20项核心服务[11] - 依赖Azure的企业服务严重受影响,包括阿拉斯加航空在线值机系统、Helm官网、加拿大魁北克医疗机构Santé Québec病患访问系统等[13][14][15] - DownDetector数据显示星巴克、克罗格、Costco等大型企业网站出现服务中断高峰[17] 故障原因与恢复措施 - 事故核心原因是Azure Front Door服务中一次意外的租户配置更改,导致无效配置状态引发全球节点流量分配失衡[18][19] - 故障源于配置部署流程的软件缺陷,使防护机制失效,异常配置绕过安全校验[24] - 微软采取紧急措施阻止新配置更改,并部署"最后一次已知正常"配置版本,采取分阶段渐进式恢复策略[22][23] - 公司已审查防护措施并增加新的验证与回滚机制,以防止类似问题重演[25] 行业影响与系统性风险 - 此次Azure宕机发生在一周前亚马逊AWS全球服务中断之后,两大云服务商连续出现问题引发行业担忧[27][29] - 专家指出云服务高度集中化带来系统性脆弱性,单次配置错误可能引发全球性连锁反应[30] - 行业监测服务商Catchpoint CEO强调,此类宕机在几小时内可能造成数千万美元损失,韧性建设需成为董事会层面议题[32] - 事件凸显云计算集中化风险,引发对冗余设计、多云部署和自主控制权的行业思考[32]