文章核心观点 华为用纯昇腾集群训练出的盘古Ultra,参数量135B,训练零英伟达含量且无损失尖峰,性能优异,能与DeepSeek - R1竞争,采用关键技术并经多阶段训练实现高效训练 [1][2][5] 分组1:盘古Ultra性能表现 - 作为135B密集模型,达到同尺度最优,可与参数量更大的MoE模型竞争 [5] - 预训练评测中,在绝大部分英文基准任务和全部中文任务上性能最佳,优于Llama 405B、DeepSeek - V3等模型 [5] - 在MMLU、TriviaQA、GSM8K等数据集上展现卓越语言理解和推理能力 [6] - 指令调优后,在AIME 2024、MATH - 500等数学推理任务和LiveCodeBench等编程竞赛题上达SOTA水平 [7] - 综合超越GPT - 4o、Mistral - Large 2等模型,与DeepSeek - R1竞争激烈 [8] - 在Arena Hard、MMLU - pro等评测中表现优异 [9] 分组2:盘古Ultra关键技术 - 采用分组查询注意力(GQA)机制,含96个查询头和8个键值头 [12] - 模型架构改进采用深度缩放的Sandwich - Norm层归一化,消除训练loss尖峰,使训练平稳 [12][13] - 引入深度缩放机制,对Post - Norm中的放缩参数γ进行深度相关初始化 [16] - 采用TinyInit参数初始化策略,依据模型深度和宽度缩放初始化权重标准差,避免梯度问题,加速收敛 [18] - 针对Tokenizer优化,得到153376个token的平衡词表 [18] 分组3:盘古Ultra训练流程 - 训练分预训练、长上下文扩展和指令调优三个阶段 [20] - 预训练分通用、推理、退火三个子阶段,使用大量中英文通用语料,采用数据清洗和curriculum learning策略,用AdamW优化器并动态调参 [21][22] - 预训练后在最长128K的长上下文数据上训练,扩大RoPE基频实现长序列建模 [25] - 指令调优阶段用监督微调(SFT)和强化学习(RL)使模型适应下游任务 [26] 分组4:盘古Ultra训练设施与优化 - 使用8192个昇腾AI处理器组成的大规模计算集群,节点通过HCCS和RoCE网络互联 [27] - 采用数据并行、张量并行、序列并行和流水线并行等并行策略组合 [28] - 使用ZeRO分布式优化器,降低单个设备内存占用 [32] - 通过算子融合、通信计算重叠等技术,最小化通信开销,提升计算效率,实现52%以上算力利用率 [33][36]
英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练
量子位·2025-04-15 11:54