不用强化学习也能推理,哈佛新采样算法竟能让基础模型比肩GRPO后训练版本
机器之心·2025-10-22 16:46
机器之心报道 编辑:Panda 强化学习能力强大,几乎已经成为推理模型训练流程中的标配,也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。 现在,问题来了:要让大模型学会推理,强化学习是必需的吗? 近日,哈佛大学一篇论文探索了能否不使用任何额外训练,通过纯粹的采样让基础模型表现出推理能力。 论文标题:Reasoning with Sampling: Your Base Model is Smarter Than You Think 论文地址:https://www.arxiv.org/pdf/2510.14901 项目网站:https://aakaran.github.io/reasoning_with_sampling/ 他们的探索成功了,提出了一种利用基础模型自身似然度的简单迭代采样算法。 代码地址:https://github.com/aakaran/reasoning-with-sampling 他们还证明,在不同的基础模型上,该算法都能大幅提升推理能力。 也就是说: 直接从基础模型进行采样,可以实现与强化学习相媲美的单次推理能力! 更重要的是,该算法无需训练、无需数据集、无需验证器,从而可避 ...