Workflow
路由重放机制
icon
搜索文档
小米最新大模型成果!罗福莉现身了
自动驾驶之心· 2025-10-19 00:03
公司AI研究进展 - 小米AI团队与北京大学联合发布一篇聚焦MoE与强化学习的论文[2] - 论文通讯作者包括此前从DeepSeek转会至小米的AI研究员罗福莉[4] - 罗福莉硕士毕业于北京大学,其学术论文总引用次数已超过1.1万次,今年新增约八千次引用[5][60] 技术核心问题与解决方案 - 当前MoE架构在强化学习中面临路由机制导致训练不稳定的挑战,严重时会导致模型崩溃[9][10] - 研究团队提出R3方法,通过在训练中复用推理阶段的路由分布来解决路由随机性问题[28][29][30] - R3方法能够与现有的前缀缓存系统无缝衔接,通过缓存路由掩码提升计算效率[35][36][38] 实验性能结果 - 基于Qwen3-30B-A3B模型的实验显示,R3方法在多mini-step设置下GRPO+R3比GSPO高出1.29分[41][42] - 将R3与GSPO结合性能可进一步提升0.95分[43] - R3显著提升训练稳定性,GRPO训练到第60步已严重跑偏,而R3到第150步仍保持平缓曲线[44][45][47]
小米最新大模型成果!罗福莉现身了
量子位· 2025-10-17 12:58
论文核心观点 - 小米AI团队与北京大学联合提出一种名为R3的新方法,旨在解决MoE架构大模型在强化学习中的稳定性与效率平衡问题 [7][9][49] - 该方法通过在训练阶段重放推理阶段的路由分布,使MoE模型的强化学习过程更稳定、更高效 [28][29][30] 技术背景与问题 - 后预训练时代,大规模强化学习是推动大模型突破能力边界的关键工具,但存在效率与稳定性的权衡问题 [8][11][12][13] - 在MoE架构中,动态路由机制导致训练和推理阶段策略不一致,引发“概率漂移”,严重时导致模型“灾难性崩溃” [8][20][22][23][26] R3方法详解 - 核心创新是“路由重放机制”,即在推理时记录路由分布,训练时原样重放,确保训练与推理路径一致 [28][29][30] - 为提升效率,在KVCache前缀缓存基础上引入“路由掩码”缓存,避免对相同上下文重复计算路由 [34][35][36][37] 实验结果 - 基于Qwen3-30B-A3B模型的实验表明,R3方法在多项基准测试中性能更优 [38][40] - 在多mini-step设置下,GRPO+R3比GSPO高出1.29分,GSPO+R3可进一步提升0.95分 [41][42] - R3显著提升了训练稳定性,GRPO训练在第60步出现严重跑偏,而R3在第150步仍保持平缓曲线 [43][44][46] - R3使模型优化过程更丝滑,能更快找到正确方向并探索更优策略 [47][49] 研究团队 - 论文第一作者是小米LLM-Core团队的实习生Wenhan Ma,曾参与小米MiMo模型研发 [51][52][53] - 通讯作者包括AI研究员罗福莉,其学术论文总引用次数超过1.1万次,今年新增约八千次引用 [55][56][59] - 另一通讯作者为北京大学穗志方教授,长期从事计算语言学与文本挖掘研究 [61][65]