Optimizer

搜索文档
爆肝一篇博客拿下OpenAI Offer,Muon作者怒揭:几乎所有优化器的论文都是“假的”
36氪· 2025-06-16 20:46
核心观点 - 研究员Keller Jordan通过一篇非正式的博客文章《Muon: An optimizer for hidden layers in neural networks》成功获得OpenAI的Offer,其提出的Muon优化器可能被用于GPT-5训练 [1][2][4] - Muon优化器在实测中表现优异,击败了传统优化器AdamW,展示了"实际效果优先于学术形式"的新趋势 [5][6][14] - 行业对学术影响力的定义正在转变,顶会论文不再是衡量研究价值的唯一标准 [6][8][9] 技术突破 - Muon优化器在CIFAR-10任务中将训练时间从3.3 A100秒缩短至2.6 A100秒,准确率达94% [14] - 在NanoGPT的FineWeb任务中验证损失达到3.28的速度提升1.35倍 [14] - 训练15亿参数transformer时,Muon仅需10小时(8张H100集群),比AdamW节省3.3小时 [14] 行业趋势 - AI领域迭代加速,传统论文发表流程(耗时数月)可能使研究成果"过时" [7][8] - 优化器领域仅有Adam到AdamW真正推动SOTA进步,大量论文被质疑价值 [9][11] - 企业更关注技术落地效果,OpenAI等顶尖实验室开始接纳非传统学术成果 [4][13] 人物背景 - Keller Jordan拥有加州大学圣迭戈分校数学与计算机科学双学位(GPA 3.94/4) [12] - 职业经历包括Hive公司机器学习工程师、维也纳复杂科学研究中心访问研究员 [13] - 2024年12月入职OpenAI,打破"顶会论文是进入顶尖实验室必要条件"的认知 [13] 技术原理 - Muon核心设计:SGD-momentum生成更新矩阵 + Newton-Schulz迭代近似正交化处理 [20][22] - 开源实现已发布在GitHub(PyTorch版本) [22] - 实测支持参数规模扩展至774M和1.5B仍保持优势 [14]