事件概述 - 全球云计算巨头亚马逊云服务(AWS)的核心区域US-East-1发生重大故障,持续超12小时,导致全球互联网服务大面积中断 [2] - 故障始于弗吉尼亚州北部US-East-1区域的数据库服务DynamoDB的域名系统(DNS)异常,该服务是支撑70余项AWS服务的“中枢神经” [4] - 此次事件让占据全球三分之一云市场份额的AWS服务“停摆”,数百万企业及数亿用户受到影响 [2] 故障时间线与影响范围 - 凌晨3:11 AWS状态页面首次报告故障,凌晨5:01确认故障已扩散至超70项服务 [4] - 早上6:35 AWS误报问题“完全解决”,但用户投诉量仍在飙升,迪士尼+、Reddit等平台用户投诉量突破10万条 [4] - 下午1:30部分区域服务出现恢复迹象,但实例启动错误率仍达30% [4] - 下午4:52 AWS承认存在“任务积压”,预计两小时内处理完毕,此时故障已持续超13小时 [4] - 晚间7:15核心服务逐步恢复,但部分非核心服务中断至次日凌晨 [4] 对各行业的具体冲击 - 科技与娱乐行业:Canva设计工具错误率飙升至80%,《堡垒之夜》、《Roblox》数千万玩家断线,生成式AI工具Perplexity服务完全中断 [4] - 金融与零售行业:加密货币交易所Coinbase交易中断,麦当劳App瘫痪使北美数千家门店只能接受现金,亚马逊第三方卖家单日损失最高达百万美元 [4] - 交通与公共服务:美国联合航空30%的航班无法在线值机,英国税务海关总署系统中断延误了数十万笔税款申报 [4] - 亚马逊内部运营:全美超50个亚马逊仓库调度系统离线,Flex司机无法接收订单,Anytime Pay薪资提取功能瘫痪 [4] 故障原因与技术分析 - 故障根本原因在于DynamoDB的“地址簿”记录失效,导致域名无法转换为IP地址,而非数据库本身受损 [5] - 此次故障暴露了核心服务的DNS冗余设计缺陷,与2023年6月AWS Lambda服务中断有相似性 [5] - 据Parametrix Insurance报告,US-East-1区域中断24小时可造成34亿美元直接损失,此次12小时故障的经济影响初步估算超15亿美元 [5] 行业影响与未来趋势 - AWS、微软、谷歌占据全球70%的云市场份额,此次事件印证了关键基础设施过度集中的风险 [6] - 2024年下半年内已发生三次全球性技术瘫痪,均指向云服务集中化依赖的症结 [6] - 谷歌借机推广其Workspace服务,直言“依赖单一供应商等于裸奔”,多云战略再度引发关注 [7] - 腾讯云2019年通过多区域流量调度将光缆断裂故障恢复时间压缩至150秒,为行业提供了替代方案参考 [7] - 已有劳埃德银行等客户宣布启动多云迁移计划,此次故障可能成为全球企业IT架构重构的转折点 [7]
亚马逊云服务中断:12 小时瘫痪全球互联网,暴露集中化隐忧