MLPerf基准测试结果分析 - Nvidia GPU在最新MLPerf基准测试中保持主导地位 包括对Llama 3 1 403B大型语言模型预训练的顶级性能表现 [1] - AMD首次提交训练基准测试 其Instinct MI325X GPU在LLM微调任务中性能与Nvidia H200相当 但整体落后Nvidia一代 [1][3] - AMD Instinct MI325X相比前代MI300X性能提升30% 主要由于高带宽内存增加30% [3] 基准测试任务特点 - 本次测试包含6个行业相关机器学习任务 包括内容推荐 LLM预训练/微调 目标检测 图像生成和图节点分类 [1] - LLM预训练是最资源密集的任务 本次使用Meta Llama 3 1 403B模型 规模是GPT3的两倍多 上下文窗口扩大4倍 [2] - 预训练后通常进行微调而非"训练" 微调是针对特定任务改进模型的关键阶段 [2] 硬件性能表现 - Nvidia Blackwell GPU在所有六项基准测试中取得最快训练时间 这是Blackwell首次大规模部署 [2] - 最大规模提交使用8192块GPU 性能扩展接近线性 达到理想性能的90% [7][9] - NVL72套件通过NVLink连接36个Grace CPU和72个Blackwell GPU 形成"单个大型GPU"系统 [9] - 相比历史记录 本轮最大提交GPU数量(8192)少于前几轮(超10000) 反映硬件效率提升 [12] 行业技术趋势 - 更大模型成为行业趋势 Llama 3 1 403B基准测试反映了这一发展方向 [2] - 网络连接效率对大规模训练至关重要 NVL72和InfiniBand技术显著提升多GPU协同效率 [7][9] - 能效问题受关注 两块Blackwell微调LLM耗电6 11千兆焦耳(1698千瓦时) 相当于小型房屋冬季供暖能耗 [13] 其他参与者表现 - 谷歌使用Trillium TPU提交了图像生成任务的单一基准测试 [3] - Cerebras采用晶圆级集成技术 声称推理性能比Blackwell好两倍以上 但测试方法不同于MLPerf [12] - 仅联想提交了功耗测量结果 行业呼吁更多公司参与能效测试 [13]
英伟达,遥遥领先