Gram矩阵迭代 - 财报，业绩电话会，研报，新闻 - Reportify

Gram矩阵迭代

搜索文档

不加算力，只改一个算法：Muon在万亿MoE模型中最高2倍加速

机器之心· 2026-03-31 17:00

算法核心创新 - 提出Gram Newton-Schulz方法，核心思想是将迭代计算从原始矩阵X（维度n×m）转移到其更小的Gram矩阵XX^⊤（维度n×n）上进行，从而显著降低计算量并利用对称矩阵的计算优化[3][16] - 该方法是标准Newton-Schulz迭代的数学等价形式重构，主要作用在n×n空间，旨在解决大模型训练中优化器的计算瓶颈[5][15] 技术实现与优势 - 通过将问题转化为对Gram矩阵R进行多项式迭代来近似Y^-1/2，实现了维度从n×m降至n×n，并能够使用高效的对称矩阵乘法GPU kernel，减少了低效的矩形矩阵通用乘法次数[5][18] - 在常见情况（α>1）下，Gram方法比标准方法计算量更低，浮点运算次数最高可降低约42%–58%[29] - 针对半精度下的不稳定性问题，提出了包含重启策略的稳定化版本，在保持算法稳定性的同时仍比原算法更快[5][19][23][27] 性能提升效果 - 在万亿参数稀疏MoE模型Kimi K2的训练中，使用Gram Newton-Schulz替代标准Newton-Schulz，可将优化器步骤时间降低40–50%[1] - 在NVIDIA H100和B300硬件平台上，于Kimi K2的流水线并行配置中，Gram Newton-Schulz的速度是标准Newton-Schulz的2倍[31][33] - 该方法作为Muon优化器中Newton-Schulz的即插即用替代方案，在验证集困惑度上几乎无变化，误差在0.01以内，实现了精度无损的加速[6]

Newton-Schulz方法

Gram矩阵迭代

Gram Newton-Schulz

Newton-Schulz方法

Gram矩阵迭代

Gram Newton-Schulz