超参数调优 - 财报，业绩电话会，研报，新闻

超参数调优

搜索文档

36氪· 2025-09-08 07:36

优化器性能比较 - AdamW及其改进版长期主导开放权重语言模型预训练帮助模型在海量数据下保持稳定并实现较快收敛[1] - 矩阵型预条件子优化器（如Muon、Soap、Kron）相比严格调优的AdamW可实现30-40%的迭代级别加速[1][20] - 在特定数据-模型比例下矩阵型方法展现出明显优势但AdamW依然是预训练的稳健首选[1] 超参数调优影响 - 基线模型存在超参数调优不足问题仅调整学习率一个参数就能在1.3亿参数模型上实现2倍加速[4][6] - 不同优化器的最优超参数配置差异显著固定共享超参数会导致不公平比较[4][6][12] - Lion优化器偏好较高权重衰减值（如0.6）而非标准值0.1[4] 模型规模与数据比例影响 - 优化器加速效果随模型规模增大而衰减从10亿参数模型的1.3-1.4倍加速比降至12亿参数时的1.1倍[10][26] - 在标准Chinchilla数据比例下Muon表现最佳在8倍以上数据比例时Soap成为更优选择[13][26] - 基于矩阵的优化器性能稳定优于基于标量的优化器在过训练情况下收敛到相似损失值[10] 研究方法设计 - 研究涵盖11种优化器在1亿至12亿参数规模及1倍至8倍Chinchilla数据比例下进行独立超参数调优[11][15] - 使用四种Transformer模型架构（130M/300M/520M/1.2B参数）序列长度均为4096[15][16] - 采用坐标下降法对所有优化器的超参数进行详尽网格搜索包括学习率、权重衰减、预热步数等关键参数[18] 评估方法发现 - 短期评估具有误导性不同优化器的损失曲线会随训练进行发生交叉导致排名反转[8][20] - 实际加速效果普遍低于此前研究声称水平许多替代优化器在小规模模型下的优势随规模扩大而消失[18][23] - 基于矩阵的优化器虽表现优于基于标量的优化器但加速比均未超过1.4倍[23] 案例研究结果 - 在12亿参数模型上Muon和Soap相比AdamW仍有显著加速效果但相比NAdamW无明显优势[26] - 在16倍Chinchilla数据比例下Soap性能优于Muon 推测因高阶动量维持机制更有效[26] - 超参数缩放定律预测显示 1.2B模型的实际最优配置与预测配置性能差异极小[24]

斯坦福：优化器「诸神之战」？AdamW 凭「稳定」胜出

机器之心· 2025-09-07 13:12

优化器研究背景与现状 - Adam及AdamW长期主导开放权重语言模型预训练帮助模型在海量数据下保持稳定并实现较快收敛[1] - 预训练已成为计算密集型任务代表在大模型研发中构成最主要计算开销优化器设计直接关系到收敛速度与计算成本[1] - 矩阵型预条件子优化器（如Muon、Soap、Kron）相比严格调优的AdamW可实现30–40%的迭代级别加速[1] - 尽管存在声称提供1.4至2倍加速的替代方案 AdamW仍是预训练的稳健首选但矩阵型方法在特定数据-模型比例下展现优势[1] 研究方法论缺陷 - 基线模型存在超参数调优不足问题：仅调优学习率一个参数就可在1.3亿参数模型上实现2倍加速[3][6] - 固定共享超参数导致比较不公平：例如Lion优化器偏好0.6权重衰减值而标准AdamW常用0.1[4] - 测试规模不足：多数测试使用参数远小于10亿的小型模型或1倍Chinchilla数据配比[7] - 早期训练检查点可能产生误导：学习率衰减阶段不同方法的损失曲线可能交叉导致最终排名反转[7] 优化器性能比较 - 基于矩阵的优化器（Kron、Soap、Muon）性能稳定优于基于标量的优化器（AdamW、Nesterov AdamW、Mars）[9] - 小规模模型加速效果显著但随规模增大而衰减：在10亿参数以下模型加速比达1.3-1.4倍但12亿参数时衰减至1.1倍[9] - 最优选择与场景相关：标准Chinchilla比例下Muon表现最佳数据量相对模型规模提升至8倍以上时Soap更优[11] - 实际加速效果普遍低于声称水平：所有测试中加速比均未超过1.4倍[19][22] 实验设计与方法 - 研究涵盖11种优化器包括AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron、Soap和Sophia[10][13] - 测试多种模型规模（1亿至12亿参数）和数据-模型比例（Chinchilla最优比例的1倍至8倍）[9][17] - 采用三阶段评估方法：通用设置确定实验环境独立超参数调优确保公平性敏感超参数识别扩展规模测试[14][16][20] - 使用混合数据集（DCLM-baseline、StarCoder V2、ProofPile 2）和LLaMA-3分词器确保训练数据丰富性[13] 关键研究发现 - 独立调优至关重要：不同优化器最优超参数配置差异显著缺乏独立调优会导致比较不公平且加速效果被高估[15][18] - 短期评估具有误导性：随着训练进行和学习率衰减不同优化器性能排名可能发生逆转[15] - 矩阵方法性能领先：所有最快优化器都采用基于矩阵的预条件子而非逐元素标量缩放[15] - 加速比随规模扩展衰减：Muon在1.2B参数模型上加速比降至1.2倍以下在高数据-模型比例下Soap和NAdamW表现更优[25][26] 案例研究结果 - 超参数预测有效性验证：1.2B模型在1倍Chinchilla数据量下预测配置与实际最优配置性能差异极小[23] - 极端数据比例测试：在16倍Chinchilla数据量下 Soap在300M模型上超过Muon NAdamW和Soap在130M模型上超越Muon[25][26] - 二阶动量有效性：在高数据-模型比例下 Soap和Kron维持的二阶动量变得更为有效[26]