文章核心观点 - 腾讯优图实验室提出革命性方法Training-Free GRPO,实现不更新模型参数的强化学习,大幅降低成本并提升模型性能 [7][8][28] - 该方法核心思想是通过积累和迭代“经验知识”指导模型行为,而非修改模型参数,与强化学习之父Richard Sutton倡导的从经验中学习理念一致 [8] - 传统RL训练32B模型成本约1万美元,而Training-Free GRPO优化671B模型仅需8-18美元,实现成本数量级降低 [4][25] 技术原理与流程 - 方法分为四步:多路径探索生成多个解答路径、强化学习奖励进行客观评分、语义优势提炼比较不同解答优劣、经验库优化动态更新知识库 [12][14][15][17][20] - 整个过程冻结模型参数,通过多轮强化学习更新优化经验库,在推理时注入学习到的经验知识 [11] - 语义层面的洞察比单纯数值评分更有指导意义,模型能自我反思总结有效策略 [15][16] 性能提升效果 - 在数学推理任务上,仅用100个训练样本和约8-18美元成本,即在671B的DeepSeek-V3模型上实现AIME榜单性能提升 [4][18] - DeepSeek-V3.1-Terminus使用代码工具时,AIME25指标从67.9%提升至73.3%,提升5.4个百分点 [19] - 网页搜索场景中,DeepSeek-V3.1-Terminus的Pass@1指标从63.2%提升至67.8%,提升4.6个百分点 [22][23] - 训练过程中平均工具调用次数减少,表明方法能教会代理更高效使用工具 [22] 成本优势与应用场景 - 相比传统RL训练1万美元成本,新方法仅需8-18美元,降低三个数量级 [25] - 训练和推理仅需API调用,随用随付,无需准备专用GPU资源 [25] - 特别适合长尾细分场景适配、快速迭代需求以及预算有限的个人开发者、中小企业和研究机构 [26]
腾讯优图提出Training-Free GRPO,8美元即可对DeepSeek-V3.2做强化学习