亚马逊“停电”，“马斯克”乐坏

事故概述 - AWS位于弗吉尼亚州的美国东部数据中心（US-EAST-1）发生服务中断，事故起始于美国太平洋时间10月19日23点49分，服务在第二天下午三点完全恢复，持续约15小时 [2] - 事故原因是内部网络监控子系统的故障引发的连锁反应，导致DNS解析环节出现问题，并非黑客攻击 [2] - 全球超过两千家服务商受影响，累计超过八百万用户报告问题 [4] 影响范围 - 社交软件Reddit、Signal、Snapchat同时宕机，用户无法登录或发送消息 [4] - 加密货币交易所Coinbase、投资平台Robinhood以及美国多家银行的转账系统停摆，英国用户无法刷卡 [4] - 游戏《堡垒之夜》、《使命召唤》、《精灵宝可梦Go》服务器全线离线，Epic游戏商城一度无法打开 [4] - 亚马逊自身的电商网站、Prime Video、Amazon Music、Alexa智能助手以及Ring门铃摄像头服务也受到影响 [4] - AWS为近30%的互联网业务提供支持，是网络世界基础的一部分 [1] 行业集中度风险 - 云计算市场集中度极高，全球前三家提供商（AWS、微软Azure和谷歌云）控制了超过七成的基础设施 [10] - 此次事件显示出互联网用户的命运过度依附于少数提供商，一旦一家出现故障，整个数字生态就会失衡 [10] - AWS的US-EAST-1区域在2020年、2021年都发生过类似宕机，揭示出系统的脆弱边界 [10] 自动化与人力因素 - 过去几年，亚马逊持续用AI接管更多内部流程，AWS的运维、监控、负载分配越来越多由算法完成 [11] - 公司同期进行人力精简，从2022年到2025年累计裁员超过2.7万人，仅今年7月AWS就削减了数百岗位 [11] - 业内普遍认为，自动化在提高系统效率的同时，也削弱了人工干预的灵活度 [11]