Workflow
X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习
机器之心·2025-10-22 16:46

GRPO 的核心思路很简单却强大: 这种「多路径并行 + 组内优势」的机制,虽然比传统 PPO 等方法更加简洁,但仍然需要优化模型参数, 太贵了! 这让 GRPO 虽然强大,却几乎只能由巨头来玩,中小团队和个人开发者根本「玩不起」。 能不能不改模型参数,也来跑一遍 GRPO? 腾讯优图的一篇最新论文就提出了一个非常有意思的答案: 既然更新参数这么贵,那就不更新参数,直接把 GRPO 的「学习过程」搬进上下文空间! 对同一个问题,同时生成多条解答路径(rollout) 给这些路径打分,比较组内优劣 再根据优势信号来更新模型参数,让模型越来越偏好高质量解法 在 32B 量级的模型上训练一次 RL,就可能要花掉上万美元 如果是 600B 级别的超大模型,成本和工程难度更是上天 年初的 DeepSeek-R1,带来了大模型强化学习(RL)的火爆。无论是数学推理、工具调用,还是多智能体协作,GRPO(Group Relative Policy Optimization)都成 了最常见的 RL 算法。 Training-Free GRPO 是把 GRPO 训练的整个范式迁移到了上下文学习之中: 论文标题:Training ...