子模优化
搜索文档
NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路
机器之心· 2025-11-29 17:33
文章核心观点 - 大模型推理领域正从单纯增加思维链长度的“想得久”范式,转向通过动态优化动作空间以实现“想得准”的新范式[3] - 蚂蚁与香港大学团队提出的DynaAct方法,通过动作空间优化为核心,实现了更高效、结构化的推理路径,在多项基准测试中表现优异[7][21] - 该方法证明了Test-Time Scaling的未来在于更聪明的搜索策略,而非单纯投入更多计算资源[25] 研究方法与技术框架 - 提出以Action Space Optimization为核心的TTS范式,在每一步推理中动态构建可选动作集合并选择最优动作[7] - 将动作空间学习问题转化为集合选择问题,采用子模优化实现线性复杂度算法,子模函数包含效用和多样性两部分[14] - 利用Q-learning优化,旨在选出能最大化推理回报的动作空间[14] - 动作候选从真实推理数据中学习,确保覆盖潜在解的同时避免冗余[15] 系统实现与性能 - 开源了基于vLLM的高性能MCTS框架,显著提升了节点扩展、Rollout与Reward计算效率[19] - 在6项推理基准测试中,DynaAct性能显著优于CoT、RAP与rStar等方法[21] - 具体性能表现:在MMLU上达到70.22,在ARC-C上达到51.40,在GSM8K上达到39.39,在MATH-500上达到88.31,在MMLU-Pro上达到89.16,在数学任务上达到61.00[22] - 随着MCTS Rollout次数增加,DynaAct呈现出稳定的test-time scaling趋势,且动作空间更小、延迟几乎不增加[25] 未来发展方向 - 计划将Dynamic Action Space扩展到多智能体规划场景[26] - 探索将子模优化与强化学习结合,学习端到端的自适应推理策略[26] - 推出更高效的MCTS工具包以服务开源社区[26]