Workflow
Ring home security devices
icon
搜索文档
Amazon's big outage reminds us that we trust big tech companies far too much
TechXplore· 2025-10-25 11:30
事件概述 - 亚马逊云服务位于弗吉尼亚州北部的数据中心发生级联故障,导致其141项服务及依赖该中心的客户服务中断,全球用户受到影响 [1][3] - 故障始于太平洋夏令时周日午夜前几分钟,直至周一下午3:53公司宣布问题修复,部分客户问题持续至周二,中断时间至少15小时(900分钟)[3][7] - 此次故障源于公司内部域名系统问题,导致网络地址解析失败,进而引发技术混乱 [10][11] 受影响的服务与用户 - 众多互联网服务受影响,包括Snapchat、Roblox、Fortnite、Signal、Robinhood以及达美航空和美国航空,用户无法访问服务、完成交易或办理在线登机 [1][4] - 亚马逊自有产品如Ring智能门铃及Eight Sleep智能床垫(售价数千美元,年费300-400美元)用户无法通过应用调节功能,公司承诺将推出蓝牙连接作为备用方案 [3][5] - 航空公司和银行客户被迫使用手动替代方案,业务运作退至互联网前时代水平 [4] 行业可靠性与标准对比 - 故障暴露了关键全球服务系统的可靠性问题,与历史上AT&T提出的“五个九”(99.999%)可靠性标准(年宕机时间不超过5.26分钟)形成鲜明对比 [6][7] - 现代高科技服务提供商往往持“足够好”的态度,与过去电话服务“始终在线”的承诺不同 [8] - 行业专家指出,IT部门应设计容错系统,将工作负载分布到多个可用区,并准备快速故障切换至其他区域,以减小影响范围和恢复时间 [16] 行业结构与风险集中 - 云服务市场由亚马逊、微软和谷歌三大平台主导,将互联网关键骨干网置于少数富有的科技公司控制下有其利弊 [14][20] - 优势在于这些公司拥有维护质量和可靠性的财务资源,但风险在于系统一旦故障,全球对少数运营商的依赖会导致全球性瘫痪 [20] - 客户并非必须依赖单一数据中心,亚马逊在全国拥有多个数据中心,并建议用户切换,但若未提前实施备用方案,故障时仍将无法使用 [15] 技术依赖与系统设计缺陷 - 互联网最初设计为中立系统,假设所有数据流和更新均可信,但有时可信更新并不可靠,如去年CrowdStrike故障导致数百万台运行微软程序的计算机崩溃 [16][17][18] - 现代生活对网络服务的依赖日益加深,从语音通话、数据传输到家电操作均需互联网连接,但许多设备被附加了不必要的联网功能 [21][23] - 系统故障的诊断和修复变得复杂,用户往往无法自行定位问题,只能等待服务提供商修复 [25][26]