Workflow
VAPR
icon
搜索文档
GPU告急!亚马逊自建“调度帝国”
半导体芯闻· 2025-04-22 18:39
亚马逊GPU资源短缺与应对策略 - 2024年初生成式AI热潮导致亚马逊零售部门面临GPU严重短缺,多个项目因无法获得芯片而延迟上线[1] - 2024年7月启动"格陵兰项目(Project Greenland)",建立集中管理的GPU容量池并收紧审批流程[1] - 2024年下半年零售部门面临超1000个P5实例(含8颗Nvidia H100 GPU/台)的资源短缺[10] GPU分配管理机制 - 制定八条分配信条:以ROI为核心、禁止先到先得、持续优化、集中管理、重视时效、效率驱动创新、适度风险容忍、透明与保密平衡[4] - 要求所有GPU申请必须提供详细ROI证明,项目需满足"随时可开工"条件并说明市场抢占计划[3] - 实施动态回收机制:未达预期项目将被回收GPU资源[4][5] 技术解决方案与基础设施投入 - Greenland平台实现GPU资源跨团队共享、空闲服务器监测及预警功能,2025年强制所有申请通过该平台[5] - 预计2025年AWS云基础设施支出达57亿美元(较2024年45亿美元增长27%),其中10亿美元专用于GPU驱动的AI项目[8] - 计划2025年底前通过自研Trainium芯片满足需求,但短期内仍需依赖外部供应[10] AI应用落地与商业成效 - 零售部门部署160+AI项目,包括购物助手Rufus、包裹识别系统VAPR、智能客服等,2024年间接创造25亿美元营业利润并节省6.7亿美元可变成本[7][8] - 重点AI项目覆盖物流(路线优化)、卖家服务(欺诈调查)、客户体验(NLP客服)等核心场景[7] 行业供需现状 - 全球GPU短缺持续两年,OpenAI等头部公司同样面临资源紧张[2] - 英伟达确认2025年仍存在供应限制,但亚马逊预计其GPU瓶颈将在2025年缓解[2][10] - AWS已为零售业务开放完整AI处理器访问权限,宣称具备可持续的GPU供应能力[2][10]