Workflow
亚马逊“停电”,“马斯克”乐坏

事故概述 - AWS位于弗吉尼亚州的美国东部数据中心(US-EAST-1)发生服务中断,事故起始于美国太平洋时间10月19日23点49分,服务在第二天下午三点完全恢复,持续约15小时 [2] - 事故原因是内部网络监控子系统的故障引发的连锁反应,导致DNS解析环节出现问题,并非黑客攻击 [2] - 全球超过两千家服务商受影响,累计超过八百万用户报告问题 [4] 影响范围 - 社交软件Reddit、Signal、Snapchat同时宕机,用户无法登录或发送消息 [4] - 加密货币交易所Coinbase、投资平台Robinhood以及美国多家银行的转账系统停摆,英国用户无法刷卡 [4] - 游戏《堡垒之夜》、《使命召唤》、《精灵宝可梦Go》服务器全线离线,Epic游戏商城一度无法打开 [4] - 亚马逊自身的电商网站、Prime Video、Amazon Music、Alexa智能助手以及Ring门铃摄像头服务也受到影响 [4] - AWS为近30%的互联网业务提供支持,是网络世界基础的一部分 [1] 行业集中度风险 - 云计算市场集中度极高,全球前三家提供商(AWS、微软Azure和谷歌云)控制了超过七成的基础设施 [10] - 此次事件显示出互联网用户的命运过度依附于少数提供商,一旦一家出现故障,整个数字生态就会失衡 [10] - AWS的US-EAST-1区域在2020年、2021年都发生过类似宕机,揭示出系统的脆弱边界 [10] 自动化与人力因素 - 过去几年,亚马逊持续用AI接管更多内部流程,AWS的运维、监控、负载分配越来越多由算法完成 [11] - 公司同期进行人力精简,从2022年到2025年累计裁员超过2.7万人,仅今年7月AWS就削减了数百岗位 [11] - 业内普遍认为,自动化在提高系统效率的同时,也削弱了人工干预的灵活度 [11]