小模型推理能力
搜索文档
GRPO遭遇瓶颈?G²RPO-A让自适应指导为小模型推理能力「开外挂」
机器之心· 2026-05-06 16:39
大模型时代的「炼金术师」们,或许都曾面临一个共同的困扰:当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型 (SLMs)时,效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著,但一旦应用到 1.7B 甚至更小参数的模型上,性能提升 就微乎其微。 针对小模型在强化学习中的推理困境,香港中文大学(深圳)T-Lab 唐晓莹教授携课题组博士毕业生郭永新、邓文博提出了全新算法 G²RPO-A(Guided Group Relative Policy Optimization with Adaptive Guidance)。已被 ACL 2026 主会议(Main Conference)接收。 该方法通过在 roll-out 过程中注入高质量思维轨迹,并根据训练状态动态调整指导强度,有效缓解小模型面临的奖励稀疏问题。在 Llama、Qwen、 DeepSeek 等多个主流模型家族上的实验表明,G²RPO-A 在数学推理和代码生成任务上显著优于 vanilla GRPO,其中 Qwen3-1.7B 在 MATH500 上从 50.96 提升到 6 ...