Workflow
Gram矩阵迭代
icon
搜索文档
不加算力,只改一个算法:Muon在万亿MoE模型中最高2倍加速
机器之心· 2026-03-31 17:00
算法核心创新 - 提出Gram Newton-Schulz方法,核心思想是将迭代计算从原始矩阵X(维度n×m)转移到其更小的Gram矩阵XX^⊤(维度n×n)上进行,从而显著降低计算量并利用对称矩阵的计算优化[3][16] - 该方法是标准Newton-Schulz迭代的数学等价形式重构,主要作用在n×n空间,旨在解决大模型训练中优化器的计算瓶颈[5][15] 技术实现与优势 - 通过将问题转化为对Gram矩阵R进行多项式迭代来近似Y^-1/2,实现了维度从n×m降至n×n,并能够使用高效的对称矩阵乘法GPU kernel,减少了低效的矩形矩阵通用乘法次数[5][18] - 在常见情况(α>1)下,Gram方法比标准方法计算量更低,浮点运算次数最高可降低约42%–58%[29] - 针对半精度下的不稳定性问题,提出了包含重启策略的稳定化版本,在保持算法稳定性的同时仍比原算法更快[5][19][23][27] 性能提升效果 - 在万亿参数稀疏MoE模型Kimi K2的训练中,使用Gram Newton-Schulz替代标准Newton-Schulz,可将优化器步骤时间降低40–50%[1] - 在NVIDIA H100和B300硬件平台上,于Kimi K2的流水线并行配置中,Gram Newton-Schulz的速度是标准Newton-Schulz的2倍[31][33] - 该方法作为Muon优化器中Newton-Schulz的即插即用替代方案,在验证集困惑度上几乎无变化,误差在0.01以内,实现了精度无损的加速[6]