ROVER

搜索文档
 港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」
 36氪· 2025-10-31 16:28
论文第一作者何浩然是香港科技大学博士生,研究方向包括强化学习和基础模型等,研究目标是通过经验和奖励激发超级智能。共同第一作者叶语霄是香 港科技大学一年级博士。通讯作者为香港科技大学电子及计算机工程系、计算机科学与工程系助理教授潘玲。 在大语言模型(LLM)的数学推理任务中,基于可验证奖励的强化学习(RLVR)已成为提升模型推理能力的重要手段。然而,主流方法如 PPO、GRPO 等仍然依赖为传统 RL 场景设计的策略梯度更新的学习目标,本质上可以被策略迭代(policy improvement)刻画,即包含策略评估(policy evaluation)与 策略改进(policy improvement)的不断循环的过程。这些方法常常面临训练不稳定、多样性丧失、调参复杂等问题。 那么对于 LLM 推理任务,有没有一种更简洁、更本质的解法? 论文代码: https://github.com/tinnerhrhe/ROVER 香港科技大学联合阶跃以及快手等团队提出了一个令人惊讶的答案:只需对一个完全随机的策略进行价值评估,就足以找到最优推理路径。他们由此提出 ROVER(Random Policy Valuation ...
 港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」
 机器之心· 2025-10-31 12:11
论文第一作者何浩然是香港科技大学博士生,研究方向包括强化学习和基础模型等,研究目标是通过经验和奖励激发超级智能。共同第一作者叶语霄是香港科技 大学一年级博士。通讯作者为香港科技大学电子及计算机工程系、计算机科学与工程系助理教授潘玲。 在大语言模型(LLM)的数学推理任务中,基于可验证奖励的强化学习(RLVR)已成为提升模型推理能力的重要手段。然而,主流方法如 PPO、GRPO 等仍然依 赖为传统 RL 场景设计的策略梯度更新的学习目标,本质上可以被策略迭代(policy improvement)刻画,即包含策略评估(policy evaluation)与策略改进(policy improvement)的不断循环的过程。这些方法常常面临训练不稳定、多样性丧失、调参复杂等问题。 那么对于 LLM 推理任务,有没有一种更简洁、更本质的解法? 香港科技大学联合阶跃以及快手等团队 提出了一个令人惊讶的答案: 只需对一个完全随机的策略进行价值评估,就足以找到最优推理路径。 他们由此提出 ROVER(Random Policy Valuation for Diverse Reasoning)以极简思路颠覆传统范式,跳过传统 ...


