Muon

搜索文档
腾讯研究院AI速递 20250617
腾讯研究院· 2025-06-16 22:55
生成式AI 一、 GPT-5训练背后隐藏大佬 , 靠一篇 Muon 博客入职OpenAI 1. 研究员Keller Jordan仅凭一篇关于Muon优化器的博客文章成功加入OpenAI,可能正用于 GPT-5训练; 2. Muon是针对神经网络隐藏层的优化器,采用牛顿-舒尔茨迭代法实现更新矩阵正交化,训 练速度比AdamW快; 3. Keller批评优化器研究文献充斥未 能 被采用的方法,提倡在竞争性训练任务中验证新方法 有效性。 https://mp.weixin.qq.com/s/_Fw2pT9Y4Gxb3z5Tmg6ogA 二、 谷歌AI路线图,要抛弃注意力机制?Transformer有致命缺陷 1. 谷歌AI路线图承认现有Transformer注意力机制无法实现无限上下文,需要在核心架构层 面进行全新创新; 2. Gemini未来将成为谷歌的"统一线程",连接所有服务并向"主动式AI"转变,支持全模态能 力和智能体功能; 3. 谷歌重组AI团队,将研究与产品团队整合到DeepMind,加速创新节奏,Gemini 2.5 Pro 是 重大转折点。 https://mp.weixin.qq.com/s/S ...
爆肝一篇博客拿下OpenAI Offer,Muon作者怒揭:几乎所有优化器的论文都是“假的”
36氪· 2025-06-16 20:46
核心观点 - 研究员Keller Jordan通过一篇非正式的博客文章《Muon: An optimizer for hidden layers in neural networks》成功获得OpenAI的Offer,其提出的Muon优化器可能被用于GPT-5训练 [1][2][4] - Muon优化器在实测中表现优异,击败了传统优化器AdamW,展示了"实际效果优先于学术形式"的新趋势 [5][6][14] - 行业对学术影响力的定义正在转变,顶会论文不再是衡量研究价值的唯一标准 [6][8][9] 技术突破 - Muon优化器在CIFAR-10任务中将训练时间从3.3 A100秒缩短至2.6 A100秒,准确率达94% [14] - 在NanoGPT的FineWeb任务中验证损失达到3.28的速度提升1.35倍 [14] - 训练15亿参数transformer时,Muon仅需10小时(8张H100集群),比AdamW节省3.3小时 [14] 行业趋势 - AI领域迭代加速,传统论文发表流程(耗时数月)可能使研究成果"过时" [7][8] - 优化器领域仅有Adam到AdamW真正推动SOTA进步,大量论文被质疑价值 [9][11] - 企业更关注技术落地效果,OpenAI等顶尖实验室开始接纳非传统学术成果 [4][13] 人物背景 - Keller Jordan拥有加州大学圣迭戈分校数学与计算机科学双学位(GPA 3.94/4) [12] - 职业经历包括Hive公司机器学习工程师、维也纳复杂科学研究中心访问研究员 [13] - 2024年12月入职OpenAI,打破"顶会论文是进入顶尖实验室必要条件"的认知 [13] 技术原理 - Muon核心设计:SGD-momentum生成更新矩阵 + Newton-Schulz迭代近似正交化处理 [20][22] - 开源实现已发布在GitHub(PyTorch版本) [22] - 实测支持参数规模扩展至774M和1.5B仍保持优势 [14]
Muon作者仅用一篇博客,就被OpenAI看中了
机器之心· 2025-06-16 12:04
核心观点 - AI行业对学术影响力的衡量标准正在发生变化,顶级会议论文不再是唯一评价指标,OpenAI等机构更注重实际能力而非传统学术成果[1][2][3] - Hyperbolic CEO和OpenAI成员Keller Jordan的案例表明,通过高质量博客展示研究成果也能获得顶级机构认可[3][8] - Muon优化器通过创新设计显著提升神经网络训练效率,在多项基准测试中打破速度记录[6][12][22] Muon优化器技术突破 性能表现 - 在CIFAR-10数据集上,训练速度从3.3秒提升至2.6秒(准确率保持94%)[22] - FineWeb任务训练速度提升1.35倍,验证损失降至3.28[22] - 1.5B参数Transformer训练时间从13.3小时缩短至10小时(H100集群)[22] - 在774M和1.5B参数规模下持续展现加速效果[22] 核心技术 - 采用牛顿-舒尔茨迭代正交化更新矩阵,5次迭代即可收敛[36][49] - 优化后系数(3.4445,4.7750,2.0315)实现x=0处的快速收敛[47] - FLOP开销低于1%,适用于大规模训练(如Llama 405B仅增加0.5%开销)[56][59] - 与Shampoo优化器相比,避免四次方根求逆的高计算成本[63] 应用设计 - 需配合AdamW优化输入/输出层参数[66] - 对Transformer的QKV参数分别处理效果更佳[69] - 默认采用Nesterov动量加速收敛[68] - 支持bfloat16精度运行,避免float32的数值稳定性问题[36] 行业影响 - OpenAI等机构的人才选拔转向能力导向,打破传统论文发表壁垒[8] - 月之暗面团队通过引入AdamW权重衰减机制进一步优化Muon性能[78] - Essential AI的论文证实Muon能扩展帕累托边界,提升大规模训练经济性[81] - 行业需要建立更严格的优化器评估标准,避免基线调优不足的研究缺陷[72][74]