核心观点 - 亚马逊零售业务在2024年面临严重的GPU短缺问题,导致多个AI项目延迟,随后公司启动"格陵兰项目"进行内部资源改革,建立集中管理的GPU资源池并优化分配流程 [2][6] - 公司制定严格的GPU分配原则,强调投资回报率(ROI)优先,要求项目提供详细财务收益证明,并实施动态回收机制以提升资源利用率 [3][5] - 通过AWS云服务与自研芯片Trainium的协同,公司预计2025年GPU供应瓶颈将缓解,零售部门计划在AI领域投资10亿美元,2025年AWS基础设施支出将增至57亿美元 [8][10] GPU短缺背景 - 2024年生成式AI热潮导致全球GPU持续短缺,英伟达等供应商供应受限,OpenAI等企业同样面临资源紧张 [2] - 亚马逊零售部门曾出现超1000个P5实例(每台含8颗Nvidia H100 GPU)的短缺,影响160多个AI项目推进 [8][10] 格陵兰项目(Project Greenland) - 2024年7月启动,建立集中式GPU协调平台,实现跨团队资源共享、利用率监控及低效项目预警 [6][7] - 引入回收机制,将闲置GPU重新分配给高优先级项目,并强制所有新申请通过该平台提交 [7][10] - 系统集成网络设置、安全更新等功能,简化运维流程 [7] GPU分配策略 - 八条核心原则:ROI导向、动态优化、集中管理、效率优先、风险容忍、透明与保密平衡、资源可回收 [5] - 审批标准包括:项目"随时可开工"、市场竞争力证明、明确成果时间表及每颗GPU的财务收益测算 [3][5] - 2024年末零售部门计划在2025年Q1将新增GPU分配给优先级最高的项目 [3] AI应用与投资 - 重点AI项目包括购物助手Rufus、产品图像生成器Theia、物流优化模型及自动化客服系统等 [8][12] - 2024年AI投资间接带来25亿美元营业利润和6.7亿美元成本节约 [8] - 2025年零售部门预计投入10亿美元用于GPU驱动的AI项目,AWS基础设施支出同比增长27%(45亿→57亿美元) [8][10] 供应改善预期 - 自研芯片Trainium预计2025年底满足需求,AWS云服务已全面开放GPU访问权限 [10] - 内部预测显示2025年供应将从短缺转为盈余,CEO安迪·贾西称下半年限制将缓解 [10]
GPU告急!亚马逊自建“调度帝国”