“云计算春晚”又来了!不止自研AI芯片和模型,亚马逊云科技回答了一个核心问题

文章核心观点 - AI产业正经历从技术奇观到实际价值创造的关键拐点,AI Agent的出现是这一转变的核心驱动力[5][6] - 大模型商业化的成功不能仅依赖芯片或模型的单点优势,而需要在硬件与软件的每一层进行端到端优化[1] - 亚马逊云科技的核心战略是构建面向Agentic AI时代的完整技术栈,从底层基础设施、芯片、模型到上层工具链和平台,以帮助企业将AI价值落地[6][38] AI基础设施与芯片 - 公司全球数据中心网络覆盖38个区域、120个可用区,过去一年新增3.8吉瓦数据中心容量,规模位居全球首位[5] - 公司是运行GPU的最佳场所,OpenAI等大型企业正在使用拥有数十万颗GPU的EC2 UltraServers集群,并即将升级至GB300系列[7][8] - 推出“客户专属私有区域”AI Factories,客户可在自有数据中心内部署独享的AI基础设施,并访问最新Nvidia GPU和核心AI服务[10] - 自研AI芯片Trainium已部署超过100万颗,Trainium 2成为全球性能最强的推理系统之一,Bedrock上大部分推理任务由Trainium驱动[10][11] - Trainium 3正式可用,采用3纳米工艺,计算能力较Trainium 2提升4.4倍,内存带宽提升3.9倍,每兆瓦功耗可处理的AI tokens数量提升5倍[13] - 下一代芯片Trainium 4已进入深度设计阶段,FP4计算性能预计提升6倍,内存带宽提升4倍,高带宽内存容量提升2倍[16] 模型生态与策略 - 公司认为未来不会出现单一主导模型,策略是持续扩展模型范围,Bedrock平台上的模型数量较去年几乎翻番[17] - 自研模型Amazon Nova系列升级至Nova 2,包括Light、Pro、Sonic和Omni四个版本,覆盖从快速推理到复杂多模态任务的不同场景[20] - 引入开放式训练模型Nova Forge,企业可在模型训练阶段注入专有数据,获得兼具通用能力和行业理解的专属模型[21][23] - 开源模型生态进一步扩展,新引入Google Gemma MiniMax M2、kimi k2、NVIDIA Nemotron以及Mistral AI的最新权重模型[18] AI Agent平台与工具 - 推出Amazon Bedrock AgentCore平台,提供Serverless安全运行时环境,支持Agent间相互调用和隔离式记忆机制,可部署数千并发会话[25][26] - 推出Policy in AgentCore系统,通过自然语言定义可实时执行的策略,确保Agent行为可控与可审计[28] - 推出AgentCore Evaluations功能,支持对正确性、有用性等维度进行自动评估,并将结果在CloudWatch中统一呈现[29] 内部实践与效率提升 - 发布Kiro开发环境,可将自然语言指令转化为可执行代码,公司内部已全面采用Kiro作为官方AI开发环境[34] - Kiro帮助公司一个大型重构项目从原计划30名开发者、18个月缩短至6名开发者、76天完成[34] - 基于Kiro经验推出Kiro自主Agent、Amazon Security Agent和Amazon DevOps Agent,覆盖软件生命周期核心环节[35][36] 业务规模与增长 - 公司业务规模达1320亿美元,同比增长速度加快至20%,过去一年业务营收新增220亿美元[4] - Bedrock平台客户数量同比增长超过两倍,已有逾50家客户单日处理的token数量突破1万亿[17]