Workflow
概率漂移
icon
搜索文档
小米最新大模型成果!罗福莉现身了
量子位· 2025-10-17 12:58
论文核心观点 - 小米AI团队与北京大学联合提出一种名为R3的新方法,旨在解决MoE架构大模型在强化学习中的稳定性与效率平衡问题 [7][9][49] - 该方法通过在训练阶段重放推理阶段的路由分布,使MoE模型的强化学习过程更稳定、更高效 [28][29][30] 技术背景与问题 - 后预训练时代,大规模强化学习是推动大模型突破能力边界的关键工具,但存在效率与稳定性的权衡问题 [8][11][12][13] - 在MoE架构中,动态路由机制导致训练和推理阶段策略不一致,引发“概率漂移”,严重时导致模型“灾难性崩溃” [8][20][22][23][26] R3方法详解 - 核心创新是“路由重放机制”,即在推理时记录路由分布,训练时原样重放,确保训练与推理路径一致 [28][29][30] - 为提升效率,在KVCache前缀缓存基础上引入“路由掩码”缓存,避免对相同上下文重复计算路由 [34][35][36][37] 实验结果 - 基于Qwen3-30B-A3B模型的实验表明,R3方法在多项基准测试中性能更优 [38][40] - 在多mini-step设置下,GRPO+R3比GSPO高出1.29分,GSPO+R3可进一步提升0.95分 [41][42] - R3显著提升了训练稳定性,GRPO训练在第60步出现严重跑偏,而R3在第150步仍保持平缓曲线 [43][44][46] - R3使模型优化过程更丝滑,能更快找到正确方向并探索更优策略 [47][49] 研究团队 - 论文第一作者是小米LLM-Core团队的实习生Wenhan Ma,曾参与小米MiMo模型研发 [51][52][53] - 通讯作者包括AI研究员罗福莉,其学术论文总引用次数超过1.1万次,今年新增约八千次引用 [55][56][59] - 另一通讯作者为北京大学穗志方教授,长期从事计算语言学与文本挖掘研究 [61][65]