Workflow
斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
36氪·2025-09-08 07:36

优化器性能比较 - AdamW及其改进版长期主导开放权重语言模型预训练 帮助模型在海量数据下保持稳定并实现较快收敛[1] - 矩阵型预条件子优化器(如Muon、Soap、Kron)相比严格调优的AdamW可实现30-40%的迭代级别加速[1][20] - 在特定数据-模型比例下矩阵型方法展现出明显优势 但AdamW依然是预训练的稳健首选[1] 超参数调优影响 - 基线模型存在超参数调优不足问题 仅调整学习率一个参数就能在1.3亿参数模型上实现2倍加速[4][6] - 不同优化器的最优超参数配置差异显著 固定共享超参数会导致不公平比较[4][6][12] - Lion优化器偏好较高权重衰减值(如0.6)而非标准值0.1[4] 模型规模与数据比例影响 - 优化器加速效果随模型规模增大而衰减 从10亿参数模型的1.3-1.4倍加速比降至12亿参数时的1.1倍[10][26] - 在标准Chinchilla数据比例下Muon表现最佳 在8倍以上数据比例时Soap成为更优选择[13][26] - 基于矩阵的优化器性能稳定优于基于标量的优化器 在过训练情况下收敛到相似损失值[10] 研究方法设计 - 研究涵盖11种优化器 在1亿至12亿参数规模及1倍至8倍Chinchilla数据比例下进行独立超参数调优[11][15] - 使用四种Transformer模型架构(130M/300M/520M/1.2B参数)序列长度均为4096[15][16] - 采用坐标下降法对所有优化器的超参数进行详尽网格搜索 包括学习率、权重衰减、预热步数等关键参数[18] 评估方法发现 - 短期评估具有误导性 不同优化器的损失曲线会随训练进行发生交叉导致排名反转[8][20] - 实际加速效果普遍低于此前研究声称水平 许多替代优化器在小规模模型下的优势随规模扩大而消失[18][23] - 基于矩阵的优化器虽表现优于基于标量的优化器 但加速比均未超过1.4倍[23] 案例研究结果 - 在12亿参数模型上Muon和Soap相比AdamW仍有显著加速效果 但相比NAdamW无明显优势[26] - 在16倍Chinchilla数据比例下Soap性能优于Muon 推测因高阶动量维持机制更有效[26] - 超参数缩放定律预测显示 1.2B模型的实际最优配置与预测配置性能差异极小[24]