Workflow
陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o
量子位·2025-09-28 12:56

陈丹琦新作来了。 他们提出了一 个结合RLHF和RLVR优点的 方法, RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型奖励 思维的强化学习) 。 它要求模型在回答之前生成CoT,然后使用人类偏好训练的奖励模型来评价输出。 支持在基础模型上直接使用, 甚至不需要SFT,可以大幅节省后训练成本 。 | Model Avg. | WB AE2 AH2 CWv3 | | | --- | --- | --- | | Our model | | | | L3.1-8B-I-RLMT 54.1 50.4 58.7 22.9 | | 84.3 | | Other models | | | | L3.1-70B-Instruct 32.1 16.3 42.0 10.6 | | 59.4 | | Q2.5-72B-Instruct 45.2 44.4 50.2 19.9 | | 66.3 | | GPT-40 53.2 46.2 56.5 32.1 | | 77.8 | | Claude3.7-Sonnet 58.9 47.8 58.1 39.3 | | ...