Workflow
Muon
icon
搜索文档
斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
36氪· 2025-09-08 07:36
优化器性能比较 - AdamW及其改进版长期主导开放权重语言模型预训练 帮助模型在海量数据下保持稳定并实现较快收敛[1] - 矩阵型预条件子优化器(如Muon、Soap、Kron)相比严格调优的AdamW可实现30-40%的迭代级别加速[1][20] - 在特定数据-模型比例下矩阵型方法展现出明显优势 但AdamW依然是预训练的稳健首选[1] 超参数调优影响 - 基线模型存在超参数调优不足问题 仅调整学习率一个参数就能在1.3亿参数模型上实现2倍加速[4][6] - 不同优化器的最优超参数配置差异显著 固定共享超参数会导致不公平比较[4][6][12] - Lion优化器偏好较高权重衰减值(如0.6)而非标准值0.1[4] 模型规模与数据比例影响 - 优化器加速效果随模型规模增大而衰减 从10亿参数模型的1.3-1.4倍加速比降至12亿参数时的1.1倍[10][26] - 在标准Chinchilla数据比例下Muon表现最佳 在8倍以上数据比例时Soap成为更优选择[13][26] - 基于矩阵的优化器性能稳定优于基于标量的优化器 在过训练情况下收敛到相似损失值[10] 研究方法设计 - 研究涵盖11种优化器 在1亿至12亿参数规模及1倍至8倍Chinchilla数据比例下进行独立超参数调优[11][15] - 使用四种Transformer模型架构(130M/300M/520M/1.2B参数)序列长度均为4096[15][16] - 采用坐标下降法对所有优化器的超参数进行详尽网格搜索 包括学习率、权重衰减、预热步数等关键参数[18] 评估方法发现 - 短期评估具有误导性 不同优化器的损失曲线会随训练进行发生交叉导致排名反转[8][20] - 实际加速效果普遍低于此前研究声称水平 许多替代优化器在小规模模型下的优势随规模扩大而消失[18][23] - 基于矩阵的优化器虽表现优于基于标量的优化器 但加速比均未超过1.4倍[23] 案例研究结果 - 在12亿参数模型上Muon和Soap相比AdamW仍有显著加速效果 但相比NAdamW无明显优势[26] - 在16倍Chinchilla数据比例下Soap性能优于Muon 推测因高阶动量维持机制更有效[26] - 超参数缩放定律预测显示 1.2B模型的实际最优配置与预测配置性能差异极小[24]
斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
机器之心· 2025-09-07 13:12
优化器研究背景与现状 - Adam及AdamW长期主导开放权重语言模型预训练 帮助模型在海量数据下保持稳定并实现较快收敛[1] - 预训练已成为计算密集型任务代表 在大模型研发中构成最主要计算开销 优化器设计直接关系到收敛速度与计算成本[1] - 矩阵型预条件子优化器(如Muon、Soap、Kron)相比严格调优的AdamW可实现30–40%的迭代级别加速[1] - 尽管存在声称提供1.4至2倍加速的替代方案 AdamW仍是预训练的稳健首选 但矩阵型方法在特定数据-模型比例下展现优势[1] 研究方法论缺陷 - 基线模型存在超参数调优不足问题:仅调优学习率一个参数就可在1.3亿参数模型上实现2倍加速[3][6] - 固定共享超参数导致比较不公平:例如Lion优化器偏好0.6权重衰减值 而标准AdamW常用0.1[4] - 测试规模不足:多数测试使用参数远小于10亿的小型模型或1倍Chinchilla数据配比[7] - 早期训练检查点可能产生误导:学习率衰减阶段不同方法的损失曲线可能交叉导致最终排名反转[7] 优化器性能比较 - 基于矩阵的优化器(Kron、Soap、Muon)性能稳定优于基于标量的优化器(AdamW、Nesterov AdamW、Mars)[9] - 小规模模型加速效果显著但随规模增大而衰减:在10亿参数以下模型加速比达1.3-1.4倍 但12亿参数时衰减至1.1倍[9] - 最优选择与场景相关:标准Chinchilla比例下Muon表现最佳 数据量相对模型规模提升至8倍以上时Soap更优[11] - 实际加速效果普遍低于声称水平:所有测试中加速比均未超过1.4倍[19][22] 实验设计与方法 - 研究涵盖11种优化器 包括AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron、Soap和Sophia[10][13] - 测试多种模型规模(1亿至12亿参数)和数据-模型比例(Chinchilla最优比例的1倍至8倍)[9][17] - 采用三阶段评估方法:通用设置确定实验环境 独立超参数调优确保公平性 敏感超参数识别扩展规模测试[14][16][20] - 使用混合数据集(DCLM-baseline、StarCoder V2、ProofPile 2)和LLaMA-3分词器确保训练数据丰富性[13] 关键研究发现 - 独立调优至关重要:不同优化器最优超参数配置差异显著 缺乏独立调优会导致比较不公平且加速效果被高估[15][18] - 短期评估具有误导性:随着训练进行和学习率衰减 不同优化器性能排名可能发生逆转[15] - 矩阵方法性能领先:所有最快优化器都采用基于矩阵的预条件子而非逐元素标量缩放[15] - 加速比随规模扩展衰减:Muon在1.2B参数模型上加速比降至1.2倍以下 在高数据-模型比例下Soap和NAdamW表现更优[25][26] 案例研究结果 - 超参数预测有效性验证:1.2B模型在1倍Chinchilla数据量下预测配置与实际最优配置性能差异极小[23] - 极端数据比例测试:在16倍Chinchilla数据量下 Soap在300M模型上超过Muon NAdamW和Soap在130M模型上超越Muon[25][26] - 二阶动量有效性:在高数据-模型比例下 Soap和Kron维持的二阶动量变得更为有效[26]
腾讯研究院AI速递 20250617
腾讯研究院· 2025-06-16 22:55
GPT-5训练优化器 - 研究员Keller Jordan凭借Muon优化器博客文章加入OpenAI,可能应用于GPT-5训练 [1] - Muon优化器采用牛顿-舒尔茨迭代法实现矩阵正交化,训练速度比AdamW更快 [1] - Keller批评现有优化器研究文献充斥无效方法,提倡在竞争性训练任务中验证新方法 [1] 谷歌AI架构变革 - 谷歌承认Transformer注意力机制无法实现无限上下文,需核心架构创新 [2] - Gemini将成为谷歌统一平台,连接所有服务并支持全模态能力和智能体功能 [2] - 谷歌重组AI团队整合到DeepMind,Gemini 2.5 Pro被视为重大转折点 [2] 微软AI应用案例 - 微软展示700个AI Agent和Copilot案例,覆盖金融、医疗、教育等多行业 [3] - WellsFargo使用AI将响应时间从10分钟缩至30秒,毕马威减少50%合规工作量 [3] - 米其林生产力提升10倍,SPAR节省89个工作日,84%的BCI用户效率提升10-20% [3] Midjourney视频生成技术 - Midjourney视频模型效果细腻真实但缺乏音频功能 [4] - 采取开放策略邀请用户参与评分,渲染速度提升40%,快速模式从36秒减至22秒 [5] - V7图像模型支持语音生图、草稿模式和对话模式 [5] GenSpark智能浏览器 - AI浏览器将能力融入每个网页,提供比价、选购帮助和视频总结等功能 [6] - 支持"自动驾驶模式"自动浏览网页、整理信息、制作播客 [6] - 内置700多个工具连接实现自动化工作流,目前仅推出Mac版本 [6] AI古画修复技术 - MIT工科生用AI算法将古画修复时间从9个月压缩至3.5小时 [7] - 新方法修复5612个区域并填充57314种颜色,效率提高66倍 [7] - 修复方式可化学去除不损伤原画,缺损区域越多效果越显著 [7] 小鹏自动驾驶模型 - 研发720亿参数云端大模型,验证规模法则在VLA模型持续生效 [10] - 累计处理2000多万条视频片段,算力达10 EFLOPS [10] - Token压缩方法将车端处理量压缩70% [10] AI消费范式重构 - AI将"完成任务"取代"建立关系"成为产品主线,用户月付费可达200美元 [11] - 当前AI社交产品仅嵌入生成内容,未来需重构底层连接方式 [11] - 速度成为主要竞争力,企业需保持"动态领跑" [11] AI发展路线争议 - 黄仁勋反对"AI将取代半数白领岗位"观点,批评Anthropic封闭开发模式 [12] - Anthropic回应称从未主张独家安全AI能力 [12] - 反映两种治理观:审慎伦理框架 vs 开放竞争 [12]
爆肝一篇博客拿下OpenAI Offer,Muon作者怒揭:几乎所有优化器的论文都是“假的”
36氪· 2025-06-16 20:46
核心观点 - 研究员Keller Jordan通过一篇非正式的博客文章《Muon: An optimizer for hidden layers in neural networks》成功获得OpenAI的Offer,其提出的Muon优化器可能被用于GPT-5训练 [1][2][4] - Muon优化器在实测中表现优异,击败了传统优化器AdamW,展示了"实际效果优先于学术形式"的新趋势 [5][6][14] - 行业对学术影响力的定义正在转变,顶会论文不再是衡量研究价值的唯一标准 [6][8][9] 技术突破 - Muon优化器在CIFAR-10任务中将训练时间从3.3 A100秒缩短至2.6 A100秒,准确率达94% [14] - 在NanoGPT的FineWeb任务中验证损失达到3.28的速度提升1.35倍 [14] - 训练15亿参数transformer时,Muon仅需10小时(8张H100集群),比AdamW节省3.3小时 [14] 行业趋势 - AI领域迭代加速,传统论文发表流程(耗时数月)可能使研究成果"过时" [7][8] - 优化器领域仅有Adam到AdamW真正推动SOTA进步,大量论文被质疑价值 [9][11] - 企业更关注技术落地效果,OpenAI等顶尖实验室开始接纳非传统学术成果 [4][13] 人物背景 - Keller Jordan拥有加州大学圣迭戈分校数学与计算机科学双学位(GPA 3.94/4) [12] - 职业经历包括Hive公司机器学习工程师、维也纳复杂科学研究中心访问研究员 [13] - 2024年12月入职OpenAI,打破"顶会论文是进入顶尖实验室必要条件"的认知 [13] 技术原理 - Muon核心设计:SGD-momentum生成更新矩阵 + Newton-Schulz迭代近似正交化处理 [20][22] - 开源实现已发布在GitHub(PyTorch版本) [22] - 实测支持参数规模扩展至774M和1.5B仍保持优势 [14]
Muon作者仅用一篇博客,就被OpenAI看中了
机器之心· 2025-06-16 12:04
核心观点 - AI行业对学术影响力的衡量标准正在发生变化,顶级会议论文不再是唯一评价指标,OpenAI等机构更注重实际能力而非传统学术成果[1][2][3] - Hyperbolic CEO和OpenAI成员Keller Jordan的案例表明,通过高质量博客展示研究成果也能获得顶级机构认可[3][8] - Muon优化器通过创新设计显著提升神经网络训练效率,在多项基准测试中打破速度记录[6][12][22] Muon优化器技术突破 性能表现 - 在CIFAR-10数据集上,训练速度从3.3秒提升至2.6秒(准确率保持94%)[22] - FineWeb任务训练速度提升1.35倍,验证损失降至3.28[22] - 1.5B参数Transformer训练时间从13.3小时缩短至10小时(H100集群)[22] - 在774M和1.5B参数规模下持续展现加速效果[22] 核心技术 - 采用牛顿-舒尔茨迭代正交化更新矩阵,5次迭代即可收敛[36][49] - 优化后系数(3.4445,4.7750,2.0315)实现x=0处的快速收敛[47] - FLOP开销低于1%,适用于大规模训练(如Llama 405B仅增加0.5%开销)[56][59] - 与Shampoo优化器相比,避免四次方根求逆的高计算成本[63] 应用设计 - 需配合AdamW优化输入/输出层参数[66] - 对Transformer的QKV参数分别处理效果更佳[69] - 默认采用Nesterov动量加速收敛[68] - 支持bfloat16精度运行,避免float32的数值稳定性问题[36] 行业影响 - OpenAI等机构的人才选拔转向能力导向,打破传统论文发表壁垒[8] - 月之暗面团队通过引入AdamW权重衰减机制进一步优化Muon性能[78] - Essential AI的论文证实Muon能扩展帕累托边界,提升大规模训练经济性[81] - 行业需要建立更严格的优化器评估标准,避免基线调优不足的研究缺陷[72][74]