Workflow
攻克AI推理难题,清华团队提出「统一LLM强化学习新范式」ReST-RL
36氪·2025-09-10 17:53

针对这些难题,清华大学计算机科学与技术系知识工程研究室(KEG)团队提出了一种统一的 LLM 强化学习(RL)新范式——ReST-RL。该方法通过 将改进的 GRPO 算法与精心设计的由价值模型(VM)辅助的测试时解码方法相结合,在提升 LLM 推理能力的同时,也兼顾了效率、稳定性与可拓展 性。 论文链接:https://arxiv.org/abs/2508.19576 实验结果显示,在 APPS、BigCodeBench 和 HumanEval 等不同级别的知名编程基准上,ReST-RL 的性能优于其他强化训练基线(如原始 GRPO 和 ReST- DPO),以及解码和验证基线(如 PRM-BoN 和 ORM-MCTS)。 大语言模型(LLM)真的会推理吗?业内对此争论不休。 这是因为,当前的 LLM 在面对复杂代码、多步逻辑和抽象任务时依然经常"翻车",表现出逻辑跳跃、步骤混乱、答非所问等诸多问题。 靠人教?太慢。靠奖励?信号太弱。靠验证?数据太贵。如何兼顾推理能力、训练效率与通用性,已成为业内难题。 总体来看,现有方法难以在数据采集成本、泛化能力、强化效果与训练效率之间实现全面平衡。 ReST-RL:训 ...