Workflow
Google Calendar
icon
搜索文档
Google issues apology, incident report for hours-long cloud outage
CNBC· 2025-06-17 02:19
谷歌服务中断事件 - 谷歌因近期多层更新缺陷导致全球性服务中断,超过70项云服务出现故障,影响包括Cloudflare、OpenAI、Shopify等第三方服务以及Gmail、Google日历、Google Drive等自有产品 [1] - 中断持续7小时,工程师虽在10分钟内定位问题,但崩溃导致部分大型区域系统过载 [3] - 故障根源在于5月新增的"配额政策检查"功能未经过真实场景测试,系统无法处理包含空白数据的请求,导致错误数据被发送至所有谷歌云数据中心区域 [2] 公司应对措施 - 谷歌公开致歉并承诺改进架构设计,未来将实现单系统故障不影响整体运行 [4] - 公司将审计所有系统并优化自动化与人工沟通流程,确保客户及时获取故障信息 [4] - 承认未采用行业通用的"功能开关"机制,该机制本可通过渐进式部署避免大规模故障 [3] 行业影响 - 事件暴露云计算服务链式反应风险,核心平台故障可引发多领域第三方服务瘫痪 [1] - 突显云服务商在功能部署前进行充分测试的重要性,特别是涉及全局性策略变更时 [2][3]
三大云厂同时瘫了?Cursor、ChatGPT跟着倒下!网友:整个互联网都要废了
猿大侠· 2025-06-14 11:09
云服务中断事件概述 - 谷歌云、AWS、Azure和Cloudflare同时发生服务中断,其中谷歌云宕机最严重,全球瘫痪3小时[1][6][7] - 谷歌云中断始于太平洋夏令时上午10:51,影响包括Gmail、Google Drive等Workspace产品和GCP多项服务[7] - AWS在Down Detector上记录约5000份中断报告,微软Azure记录约1000份,但两家公司状态页面显示无问题[2][3][4] 谷歌云中断详情 - 中断原因是"错误的自动配额更新"导致API管理系统故障,引发大量503错误[10] - 中断峰值时Down Detector记录超过13000起事件,影响美国、欧洲和亚洲13个云服务区域[7][35] - 谷歌承认内部系统存在缺陷,承诺改进容错机制和变更发布流程[12] - 完全恢复耗时近3小时,部分服务如Dataflow和Vertex AI恢复较慢[9][10] 受影响企业 - Shopify作为谷歌云主要客户受到严重影响[15] - Spotify服务瘫痪约3小时,Down Detector报告数量激增[17][18][19] - Cloudflare因依赖谷歌云服务导致部分产品中断,股价下跌5%[20][21][25] - 受影响Cloudflare服务包括Workers KV、Access、WARP等[24] 行业影响与讨论 - 事件暴露云计算行业基础设施相互依赖问题,Cloudflare对谷歌云的依赖程度引发关注[32][33] - 多米诺骨牌效应导致多家AI企业和软件服务公司受影响,包括OpenAI、Heroku等[28][30] - 行业人士对大型云厂商相互依赖表示担忧,认为可能引发系统性风险[33] - 事件发生时正值谷歌实施降本增效措施,包括裁员和岗位转移[36][37][38] 恢复情况 - 谷歌云在太平洋夏令时13:45大部分服务恢复,18:27全部恢复正常[9][10] - Cloudflare在太平洋时间13:57宣布所有服务恢复[23] - Cloudflare CTO承诺将发布完整的事后分析报告并改进系统[26][27]