英伟达仍是王者,GB200贵一倍却暴省15倍,AMD输得彻底
36氪·2026-01-04 19:13

AI推理游戏规则的转变 - 行业评估AI基础设施的关键指标正从单纯的算力硬指标转向“每一美元能输出多少智能”即单位成本的智能输出效率[1][4][20] - 顶级投资人指出当前竞争焦点不再是算力或GPU数量而是每一美元能买到的智能输出[4] - 随着混合专家模型和高强度推理工作负载成为主流行业已无法仅依赖芯片层面的性能提升平台级设计成为决定性因素[20][46] 模型架构演进:从稠密模型到混合专家模型 - 传统稠密模型在生成每个Token时需激活全部参数导致模型越大运行越慢、成本越高、内存需求增长[9] - 混合专家模型架构旨在释放更高水平智能每个Token只激活最相关的“专家”从而提升效率[11] - 全球TOP 10开源大语言模型全部是混合专家模型推理模型在推理阶段会先生成中间推理Token以提高准确性这导致推理Token数量往往远多于最终回复[11][14] 混合专家模型面临的核心挑战 - 混合专家模型的一个核心限制在于“通信瓶颈”当不同专家分布在多块GPU上时GPU间通信延迟会导致GPU空闲等待数据造成算力浪费[14] - 这些“空转时间”直接体现在服务提供商的成本底线上[17] - 评估AI基础设施“经济性”时需聚焦性能、能效和总体拥有成本三方面[17] 英伟达与AMD在稠密模型推理上的性能对比 - 以Llama 3.3 70B为基准在稠密模型推理中英伟达HGX B200方案在整个吞吐量与交互性区间内具备持续性能优势[21] - 在基线交互性水平下B200性能大约是AMD MI355X的1.8倍为交互式应用部署提供显著余量[21] - 当交互性提升至110 tokens/sec/user时B200吞吐量超过MI355X的6倍优势进一步放大[24] 英伟达与AMD在混合专家模型推理上的性能对比 - 在中等规模混合专家模型推理中对于gpt-oss-120B模型当目标是100 tokens/sec/user时B200比MI355X快约1.4倍当目标提高到250 tokens/sec/user时差距扩大到约3.5倍[30] - 通过软件优化双方平台性能均获提升英伟达单GPU峰值吞吐从约7,000 tokens/sec提升到超过14,000 AMD从约6,000提升到约8,500[30] - 在前沿混合专家模型推理中英伟达GB200 NVL72大幅领先在DeepSeek-R1测试中其性能是AMD MI350X吞吐量的28倍[1][18] GB200 NVL72的系统级优势与性能表现 - GB200 NVL72采用机柜级NVLink互联与软件调度能力彻底改变了成本结构[4] - 其让超过8块GPU的张量并行配置也能进入帕累托前沿达到单节点平台无法匹敌的性能[36] - 在25 tokens/sec/user交互性目标下GB200 NVL72单GPU性能大约是H200的10倍超过MI325X单GPU性能的16倍[36] - 当交互性目标提高到60 tokens/sec/user时GB200 NVL72相比H200带来超24倍的代际提升同时接近MI355X的11.5倍性能[37] 单位Token成本的经济性分析 - 尽管GB200 NVL72的单GPU小时价格几乎是竞争平台的2倍但其机架级能力推动了显著更优的单位经济性[20] - 在高交互性的推理工作负载中GB200 NVL72的单位Token成本最低可降至其他方案的约1/15[20] - 按CoreWeave目录价GB200 NVL72单GPU小时价格比H200贵1.67倍但由于其性能提升幅度估计达约20倍使其每美元性能优势达约12倍相对每Token成本仅为H200的1/12[41][42] - 与AMD MI355X相比按单GPU口径MI355X价格约为GB200 NVL72的一半但GB200 NVL72凭借从5.85倍到28倍不等的单GPU性能优势能提供最高15倍的每美元性能优势实现相对每Token成本仅为竞争对手的1/15[44][45] 行业未来趋势与竞争格局 - 前沿AI模型的未来将是更大、更复杂的混合专家模型来自OpenAI、Meta、Anthropic等公司的旗舰模型预计会继续沿此方向演进[46] - 随着模型更深地走向混合专家与推理架构平台级设计成为决定性因素包括互连与通信效率、多节点扩展特性、软件栈成熟度、生态支持与编排能力等[46] - 如果当前轨迹成立英伟达将维持关键的性能与经济性优势谷歌TPU等架构对非自家模型的适用性与性能表现仍不明确[46] - 性能差异能直接转化为可量化的商业结果例如当平台在某个交互性目标下提供28倍的单GPU吞吐提升时可在不线性扩大硬件规模的情况下解锁新产品档位及更复杂功能[47]