概率漂移 - 财报，业绩电话会，研报，新闻 - Reportify

概率漂移

搜索文档

小米最新大模型成果！罗福莉现身了

量子位· 2025-10-17 12:58

论文核心观点 - 小米AI团队与北京大学联合提出一种名为R3的新方法，旨在解决MoE架构大模型在强化学习中的稳定性与效率平衡问题 [7][9][49] - 该方法通过在训练阶段重放推理阶段的路由分布，使MoE模型的强化学习过程更稳定、更高效 [28][29][30] 技术背景与问题 - 后预训练时代，大规模强化学习是推动大模型突破能力边界的关键工具，但存在效率与稳定性的权衡问题 [8][11][12][13] - 在MoE架构中，动态路由机制导致训练和推理阶段策略不一致，引发“概率漂移”，严重时导致模型“灾难性崩溃” [8][20][22][23][26] R3方法详解 - 核心创新是“路由重放机制”，即在推理时记录路由分布，训练时原样重放，确保训练与推理路径一致 [28][29][30] - 为提升效率，在KVCache前缀缓存基础上引入“路由掩码”缓存，避免对相同上下文重复计算路由 [34][35][36][37] 实验结果 - 基于Qwen3-30B-A3B模型的实验表明，R3方法在多项基准测试中性能更优 [38][40] - 在多mini-step设置下，GRPO+R3比GSPO高出1.29分，GSPO+R3可进一步提升0.95分 [41][42] - R3显著提升了训练稳定性，GRPO训练在第60步出现严重跑偏，而R3在第150步仍保持平缓曲线 [43][44][46] - R3使模型优化过程更丝滑，能更快找到正确方向并探索更优策略 [47][49] 研究团队 - 论文第一作者是小米LLM-Core团队的实习生Wenhan Ma，曾参与小米MiMo模型研发 [51][52][53] - 通讯作者包括AI研究员罗福莉，其学术论文总引用次数超过1.1万次，今年新增约八千次引用 [55][56][59] - 另一通讯作者为北京大学穗志方教授，长期从事计算语言学与文本挖掘研究 [61][65]

小米集团(HK:01810)

路由重放机制

灾难性崩溃

大模型强化学习

路由重放机制

灾难性崩溃

大模型强化学习