R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式
机器之心·2025-10-22 16:46
现有评测无法回答这个问题,传统训练数据也无法培养这种能力(如图所示,模型在长程推理场景下性能下降严重)。 一个软件工程师需要连续调试多个相互依赖的代码模块 一个数学研究者需要基于前序定理推导后续结论 一个智能助手需要在多轮对话中逐步完成复杂任务规划 王嘉宁,获得华东师范大学博士学位,曾前往 UCSD 访问学习,在 ACL、EMNLP、AAAI、ICLR 等顶会发表论文数十篇,目前就职于美团, LongCat Team 核 心成员 ,研究方向为大模型训练与复杂推理。 研究背景:从「单步推理」到「长链决策」 OpenAI o1、DeepSeek-R1 等大型推理模型(LRMs)的出现,标志着 AI 推理能力进入了「测试时扩展」的新纪元。通过长链推理 Long Chain-of-Thought (CoT),这些模型在数学推理、代码生成、智能体任务等领域取得了令人瞩目的突破。 然而,当前的训练与评测范式存在一个根本性的局限:几乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的单步问题,问题之间相互独立,模型只 需「回答一个问题,然后结束」。但真实世界的推理场景往往截然不同: 这些场景要求模型 ...