事件概述 - 全球最大云计算平台亚马逊云服务发生重大中断 影响数千家组织 包括银行 Xero等金融软件平台和Snapchat等社交媒体平台[1] - 中断始于澳大利亚东部夏令时间周一晚上6点左右 由位于美国弗吉尼亚州北部的一个数据中心故障引起 尽管亚马逊云服务表示已修复根本问题 但部分互联网用户仍报告服务中断[2] 云计算行业现状 - 云计算是通过互联网按需交付计算能力 数据库存储和应用程序等多样化IT资源 本质是租用而非拥有IT基础设施[3] - 云计算在1990年代末随着互联网泡沫兴起而普及 采用类似水电费的按量付费模式 避免了自建数据中心所需的大量前期投资 最新统计显示超过94%的企业以某种形式使用基于云的服务[4][5] - 全球云市场由三家公司主导 亚马逊云服务占据最大份额约30% 其次是微软Azure约20% 和谷歌云平台约13%[6] 行业风险与挑战 - 这三家服务提供商近期均发生过中断 显著影响了数字服务平台 例如2024年一个第三方软件问题严重影响了微软Azure 导致全球企业广泛运营故障 谷歌云平台今年也因内部配置错误发生重大中断[8] - 全球互联网对少数主要提供商的重度依赖为企业和日常用户带来了深远风险 首先 这种集中化构成了单点故障 一个中心系统的简单配置错误可能引发多米诺骨牌效应 瞬间使互联网的大部分瘫痪[9] - 其次 这些提供商经常造成供应商锁定 由于复杂的数据架构以及将大量数据移出云所收取的过高费用 公司发现转换平台极其困难且成本高昂 这实际上困住了客户[10] - 最后 美国云服务提供商的主导地位引入了地缘政治和监管风险 存储在这些庞大系统中的数据受美国法律和政府要求约束 这可能使遵守澳大利亚隐私法等国际数据主权法规复杂化 此外这些公司拥有审查或限制服务访问的权力 从而控制公司的运营方式[11] 风险缓解策略 - 当前最佳实践是采用多云方法以实现去中心化 这涉及在多个供应商上运行关键应用程序以消除单点故障[12] - 该方法可与边缘计算互补 即将数据存储和处理从大型中央数据中心转移到公司可直接控制的分布式节点[12] - 边缘计算与多云方法的结合增强了弹性 提高了速度 并帮助公司满足严格的数据监管要求 同时避免依赖任何单一实体[13]
An Amazon outage has rattled the internet. A computer scientist explains why the 'cloud' needs to change