最新英伟达经济学:每美元性能是AMD的15倍,“买越多省越多”是真的
量子位·2026-01-01 12:15

文章核心观点 - 英伟达在AI推理,尤其是前沿MoE模型场景下,凭借其从芯片、互联到软件的端到端平台设计,实现了远超竞争对手的性价比优势,其平台每美元性能可达AMD的15倍,生成同等数量token的成本仅为AMD的十五分之一[1][4][30][40] AI推理性能对比:英伟达 vs. AMD - 根据Signal65基于2025年10月至12月基准测试的报告,在特定条件下生成同样数量的token,英伟达的成本只有AMD的十五分之一[4] - 在密集模型Llama 3.3 70B上,英伟达B200性能约为AMD MI355X的1.8倍(基线交互性30 tokens/sec/user),当交互性要求提升至110 tokens/sec/user时,差距扩大到6倍以上[17] - 在中等规模MoE模型GPT-OSS-120B上,100 tokens/sec/user交互性下,B200性能接近MI355X的3倍;在250 tokens/sec/user条件下,差距扩大到6.6倍[19][20] - 在前沿MoE推理模型DeepSeek-R1上,性能差距最为显著:在25 tokens/sec/user下,GB200 NVL72每GPU性能是MI325X的16倍;在75 tokens/sec/user下,GB200 NVL72性能是MI355X的28倍[24] - GB200 NVL72在28卡配置下可输出超过275 tokens/sec/user,而MI355X在相当吞吐水平下的峰值仅为75 tokens/sec/user[26] MoE架构趋势与扩展挑战 - AI模型架构正经历革命,智能度排名前十的开源模型均为MoE推理模型[7] - MoE架构将模型参数拆分为多个专家子网络,每个token仅激活其中一小部分,例如DeepSeek-R1拥有6710亿总参数,但每个token仅激活370亿参数,能以更低计算成本提供前沿智能[10][11] - 当专家分布在多块GPU上时,GPU间通信延迟会导致计算单元空闲,增加成本,所有8卡系统在超出单节点规模后都会遭遇“扩展天花板”[13][14] - 英伟达GB200 NVL72通过NVLink将72块GPU连接成单一域,提供130 TB/s互联带宽,配合Dynamo推理框架,有效突破8卡系统的通信瓶颈[15] 成本效益分析:性能与定价 - 根据Oracle Cloud公开定价,GB200 NVL72每GPU每小时价格为16美元,MI355X为8.60美元,前者是后者的1.86倍[27] - 根据CoreWeave定价,GB200 NVL72相比上一代H200的价格贵了约1.67倍[28] - 在25 tokens/sec/user交互性下,GB200 NVL72性能优势为5.85倍,除以1.86倍价格溢价,每美元性能是MI355X的3.1倍,生成token的相对成本为三分之一[29] - 在75 tokens/sec/user交互性下,28倍的性能优势除以1.86倍的价格,每美元性能达到MI355X的15倍,生成同等数量token的成本仅为AMD的十五分之一[30] - 在DeepSeek-R1典型工作负载下,GB200 NVL72相比H200性能提升约20倍,价格仅上涨1.67倍,每美元性能提升约12倍,单token成本降至H200的十二分之一[32][35] 行业竞争格局与未来展望 - 在密集模型和容量驱动场景下,AMD的MI325X和MI355X仍有其用武之地[38] - AMD的机柜级解决方案Helios正在开发中,可能在未来12个月内缩小与英伟达的差距[39] - 对于当前的前沿推理模型而言,从芯片到互联到软件的端到端平台设计已成为成本效益的决定性因素[40] - 行业价值的衡量标准正从单纯算力转向“每美元能产出多少智能”[37]