Amazon Web Services outage that hit nearly 150 apps caused by ‘common tech glitch'

事件概述 - 亚马逊云服务发生持续15小时的大规模服务中断，导致近150个主要网站和应用瘫痪 [1][5] - 服务中断的根本原因是其域名系统出现技术故障 [1] - 所有受影响服务在美国东部时间下午6点前全面恢复运行 [5][10] 中断原因与影响 - 中断始于亚马逊弗吉尼亚数据中心DNS系统的一个错误 [2] - 初始DNS问题随后引发了一系列其他问题，包括云计算服务和网络负载均衡器错误 [5] - 此次中断影响了142个平台，包括Slack、Zoom、Coinbase、Hulu、WhatsApp和Fortnite等知名服务 [5][8] 行业背景与规模 - 弗吉尼亚数据中心是亚马逊最古老和规模最大的数据中心，截至2023年该州数据中心消耗了全州可用电力的四分之一 [2] - 亚马逊云服务为数百万家企业提供服务，此次中断是云服务提供商领域最严重的事件之一 [8] - 全球仅有微软Azure和谷歌云两家云服务提供商在运营规模上可与亚马逊云服务相提并论 [8] 历史先例 - 2021年微软Azure和Akamai Edge均曾经历过DNS服务中断事件 [11] - 2023年7月Cloudflare的DNS解析器也因内部配置错误发生过服务中断 [10]