Wide Expert Parallelism - 财报，业绩电话会，研报，新闻

Wide Expert Parallelism

搜索文档

InferenceX v2：NVIDIA Blackwell 对阵 AMD 对阵 Hopper —— 原名 InferenceMAX --- InferenceX v2_ NVIDIA Blackwell Vs AMD vs Hopper - Formerly InferenceMAX

2026-02-24 22:19

涉及的行业与公司 * **行业**: AI芯片、AI推理、云计算、大语言模型服务 * **公司**: NVIDIA、AMD、OpenAI、Anthropic、xAI、Google Deepmind、DeepSeek、TogetherAI、Baseten、Fireworks、Oracle、Microsoft Azure、Google Cloud [1][4][6][9] * **产品/技术**: NVIDIA Blackwell (GB300 NVL72, B300, B200, GB200)、Hopper (H100, H200)、AMD MI355X、MI325X、MI300X、SGLang、vLLM、TensorRT-LLM (TRTLLM)、Dynamo、MoRI、Mooncake [1][7][9][88][110] 核心观点与论据 1. 基准测试概述与重要性 * InferenceXv2是首个在整个帕累托前沿曲线上对NVIDIA Blackwell Ultra GB300 NVL72和B300进行基准测试的套件，也是首个测试AMD MI355X在FP4和FP8精度下解耦+宽专家并行多节点性能的第三方基准测试[9] * 该基准测试覆盖了过去4年所有6款NVIDIA GPU型号和过去3年所有AMD GPU型号，总计使用了接近1000块前沿GPU进行完整测试[7][8] * 基准测试完全开源，并得到了从Google Cloud、Microsoft Azure到OpenAI等几乎所有主要算力买家的广泛复现、验证和支持[3][4][6] 2. NVIDIA表现与优势 * **Blackwell性能卓越**: NVIDIA GB300 NVL72表现强劲，在FP8对FP4的测试中，相比强大的H100（解耦+宽EP+多令牌预测基准）实现了高达100倍的提升，在FP8对FP8的测试中也达到65倍提升[34]。在H100与GB200 NVL72的对比中，在每秒每用户75个令牌的速率下，实际性能差异高达55倍[34]。这超出了Jensen Huang在GTC 2024上声称的Blackwell相比H100最高30倍推理性能提升[36] * **技术领先地位**: 在涉及解耦预填充、宽专家并行和FP4等最前沿的大规模推理技术时，NVIDIA的B200、B300和机架级GB200/GB300 NVL72在SGLang和TRTLLM平台上均展现出绝对统治力[27][28]。其GPU在能效方面也占主导地位，所有工作负载中每个令牌的全口径配置能耗要低得多[28] * **软件生态成熟**: TensorRT LLM已经通过TogetherAI等供应商在全球每小时处理数十亿个令牌，让GB200/GB300 NVL72大放异彩，在高吞吐量下提供两倍以上的性能[126][127]。NVIDIA的Dynamo TRTLLM B200在解耦预填充性能上因实现更成熟而大幅领先AMD同类方案[157] * **持续性能改进**: B200 SGLang在FP4和FP8场景下自去年10月以来持续改进，在某些交互水平下，单GPU吞吐量已翻一番[85]。GB200 Dynamo TRT-LLM解耦方案在一个多月里最大吞吐量提升了20%[82] 3. AMD表现、进展与挑战 * **FP8性能具竞争力**: 在FP8精度下，采用解耦+宽专家并行策略的AMD MI355X SGLang与B200 SGLang相比，在性价比上具有竞争力[21][23]。在单节点聚合推理服务中，AMD的SGLang在FP8精度下的性价比优于NVIDIA的SGLang[24] * **软件进步显著**: AMD团队显著提升了SGLang DeepSeek R1 FP4所有配置的性能，在不到两个月的时间里，在相同交互性下将吞吐量几乎翻了一番[66][67]。从2025年12月到2026年1月，AMD的软件性能提升了高达2倍[66]。AMD已弃用其二等公民地位的vLLM分支，转而向上游靠拢[24] * **核心挑战：优化组合性**: AMD系统和软件在推理方面的最大问题在于可组合性[29]。其许多推理优化实现在独立运行时效果良好，但与其他优化（如解耦预填充、宽专家并行和FP4）结合使用时，结果不如预期具有竞争力[30]。当启用顶尖实验室所使用的全部三大核心优化时，AMD目前的性能无法与NVIDIA匹敌[31] * **FP4性能落后**: 尽管MI355X在FP8解耦架构中具有竞争力，但其FP4性能受困于组合性问题[149]。在1k1k场景下，开启MTP的MI355X仅勉强胜过未开启MTP的B200[149]。一旦对比Dynamo TRT-LLM B200，即使开启MTP的MI355X也无法与之媲美[153] * **新架构方向受支持**: AMD为MI355X解耦推理推荐的MoRI（新建的MoE通信库）因其从底层原理构建而非分叉NCCL的做法而受到支持，在过去一个多月里，在20-45 tok/s/user的交互范围内，单GPU吞吐量提升了20%以上[88][89][90] 4. 技术趋势与经济学洞察 * **解耦推理成为主流**: 在几乎所有交互水平下，解耦推理在每GPU总令牌吞吐量上均优于聚合推理[113]。多节点解耦预填充的效果远超单节点聚合服务[113]。带有宽专家并行的解耦服务是OpenAI、Anthropic、DeepSeek等前沿AI实验室及TogetherAI等先进API提供商在生产环境中部署的方案[9] * **宽专家并行的优势**: 宽EP（如DEP32）在权重加载效率方面具有重大优势，能将权重摊销到各芯片上，而DP则复制权重，导致冗余加载[199][201]。在NVLink等高带宽互连的支持下，更宽的EP能提供显著更高的单GPU吞吐量[199][201] * **配置取决于工作负载**: 没有一种万能的解决方案，需在吞吐量与延迟（交互性）之间权衡[49][50][53]。在低并发/高交互性时，TP因负载均衡更优；在高并发时，EP的通信和权重加载优势更明显；中段则适合混合TP+EP配置[203][205][206][207]。大规模扩展（如NVL72）在低批处理量下的带宽优势不明显，因为工作负载受限于延迟而非带宽[208][209] * **单位经济效益可观**: 基于基准数据推算，使用先进推理技术（如MTP、解耦、宽EP）的服务商可能享有可观的毛利率。例如，推算Crusoe服务的输入令牌毛利率可达83%，输出令牌毛利率为45%（假设使用H200等硬件）[177][179]。在高交互性下，采用MTP等推测解码技术对于实现经济可行的推理至关重要[185][186] 其他重要内容 * **未来计划**: InferenceX计划为DeepSeekv4等中国前沿模型提供首日支持，并将在今年晚些时候加入Google TPUv7 Ironwood和AWS Trainium3[14][15] * **对厂商的建议**: 建议NVIDIA向SGLang和vLLM等开放生态系统投入更多资源和工程师[24][25]。建议AMD重点关注不同推理优化之间的可组合性，并加大对vLLM和SGLang维护者的上游代码贡献和支持[31][70] * **测试局限性**: 基准测试数据基于随机数据且禁用前缀缓存，因此代表的是性能/成本的下限，真实场景可能更好[171][172] * **地域因素**: AMD大部分负责解耦预填充+宽专家并行的工程师位于中国，相关软件改进将在农历新年后启动[32][33]

AI Inference

Disaggregated Prefill

Wide Expert Parallelism

Disaggregated Prefill

Wide Expert Parallelism

Tensor Parallel

Expert Parallel

Data Parallel