Workflow
Kiro AI coding tool
icon
搜索文档
Millions of lost orders, website errors, and 'sharp edges': Amazon cracks down on code changes
Business Insider· 2026-03-11 05:09
公司近期运营中断事件概述 - 自2025年第三季度以来,公司电子商务运营出现一系列事故趋势,最近几周发生多起重大事故 [2] - 至少一起中断与公司AI编码助手Q有关,其他事故则暴露了更深层次的问题 [2] - 3月2日的事故导致客户购物车显示错误送达时间,造成近12万份订单流失和约160万次网站错误,公司内部审查确认AI工具Q是主要诱因之一 [12] - 3月5日的事故导致北美市场订单量骤降99%,造成630万份订单流失,关键因素之一是未使用正式的“建模变更管理”流程 [13] - 公司发言人表示,在周二审查的事故中,仅1起与AI相关,且均不涉及AI编写的代码 [14] 事故暴露的技术与管理问题 - 问题包括“高爆炸半径变更”,即因控制平面缺乏适当防护措施导致软件更新广泛传播 [3] - 数据损坏问题需要数小时才能解决 [3] - 部分故障可追溯至基本机制缺失或被绕过,例如要求两人授权代码变更的机制 [3] - 3月5日事故的关键因素之一是生产变更部署时未使用正式的文档和审批流程,且没有自动化的部署前验证,单个授权操作员即可在没有防护措施的情况下执行高爆炸半径的配置更改 [13] 公司采取的应对与改进措施 - 公司正在加强内部防护措施,引入更严格的控制,要求工程师更彻底地记录代码变更并获得额外批准 [4] - 公司正在开发其他防护措施,旨在为代码变更审查流程引入“受控摩擦” [4] - 公司正在实施临时安全实践,为核心零售体验部分的变更引入受控摩擦,同时投资于更持久的解决方案,包括确定性和智能体防护措施 [8] - 公司新的代码防护措施将结合AI驱动的“智能体”工具与更可预测的、基于规则的“确定性”系统 [9] - 公司正在推行一项为期90天的临时安全指南,作为现有政策的补充 [15] - 新政策针对约335个“一级系统”(可直接影响消费者的服务),这些系统自去年以来经历了多次影响订单的事故,且由副总裁级组织负责 [15] - 根据新政策,工程师在进行任何代码变更前必须获得两人审核,还必须使用内部文档审批工具以及严格遵守公司核心可靠性工程规则的自动化编码系统 [16] - 公司正在通知所有一级系统负责人以及总监和副总裁级领导,指示他们审核其组织内的所有生产代码变更活动 [16] 生成式AI对软件开发的影响与挑战 - 公司的事故是生成式AI如何颠覆软件编写、检查和发布方式的例证 [8] - AI编码服务(如Claude Code、公司的Q和Kiro)帮助工程师产出比过去多得多的代码,但当大量新代码冲击传统的软件审查流程时,问题就会出现 [8] - AI模型具有非确定性的核心问题,即相同的问题可能得到略有不同的答案,这使得该技术有时不适用于要求每次都必须100%准确的企业工作流程,例如核心ERP系统以及大型电商平台中的产品、价格、订单和交易数据 [10] - 关于3月2日事故的内部文件指出,生成式AI在控制平面操作中的使用将加速暴露尖锐问题和缺乏防护措施的领域,需要在控制平面安全方面进行投资 [13] - 《金融时报》此前报道,公司的Kiro AI编码工具部分导致了12月一次长达13小时的AWS服务中断 [17]