长链推理
搜索文档
R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式
机器之心· 2025-10-22 16:46
研究背景与核心问题 - 大型推理模型(LRMs)如OpenAI o1、DeepSeek-R1的发展标志着AI推理进入“测试时扩展”新纪元,在数学推理、代码生成等领域取得突破[4] - 当前主流评测基准(如MATH500、AIME)聚焦于孤立的单步问题,与真实世界需要跨问题长链推理的场景存在根本性局限[4] - 真实场景如软件工程师调试相互依赖的代码模块、数学研究者基于前序定理推导结论,要求模型具备跨子问题的推理连贯性、资源分配和反思纠错能力[4][6] - 核心问题在于现有评测无法揭示大型推理模型在长链推理场景下的能力边界,传统训练数据也无法培养这种能力[5] R-HORIZON方法与基准 - R-HORIZON是首个系统性评估与增强LRMs长链推理能力的方法与基准,由复旦大学与美团LongCat Team联合推出[8] - 该方法提出简洁而强大的问题组合(Query Composition)方法,通过建立问题间依赖关系将孤立任务转化为复杂多步骤推理场景[11] - 方法具有三大优势:可灵活控制推理链长度、可灵活设定问题间依赖关系、基于现有数据集构建无需额外标注的低成本特性[12][17] - 构建的评测基准涵盖6大代表性数据集,包括数学推理(MATH500, AIME)、代码生成(LiveCodeBench)和智能体应用(WebShaper)[15] 核心发现:性能断崖与瓶颈分析 - 评测20+个主流LRMs揭示惊人现象:即使最先进模型在长链推理场景下也会出现性能断崖式下降[16] - DeepSeek-R1在AIME25单问题场景下准确率达87.3%,但在5个组合问题场景下暴跌至24.6%[21] - 模型规模影响显著,更大模型对多步推理挑战展现出更强韧性[21] - 当前LRMs存在三大关键瓶颈:有效推理长度受限、反思机制高度局部化、思考预算分配失衡[19][23][29] R-HORIZON训练成果 - 使用R-HORIZON构建的长链推理数据并通过GRPO算法进行强化学习训练,实现双重性能提升[26][30] - 使用n=2组合问题训练不仅大幅提升多步推理性能(AIME24 n=2场景提升17.4分),单问题性能也显著增强(AIME24单题场景提升7.5分)[31][33] - 训练带来推理机制的深层改变:更高效的推理长度、更合理的预算分配、更长程的反思能力[34][35][36] - 增加组合复杂度(n=4)增强了模型处理需要更多推理步骤问题的能力,在MATH500 (n=8)上达到50.6%的准确率[31][33] 技术贡献与行业影响 - R-HORIZON标志着大型推理模型研究从“能解决什么问题”到“能走多远”的范式转变[39] - 提供完整开源生态,包括评测代码、Benchmark数据、训练数据和代码、数据构建流程及详细文档[40][44] - 为行业提供低成本、高效率的能力提升路径,通过Query Composition方法实现可控的长链推理数据构建[44] - 深度机制分析为未来推理模型改进指明方向,揭示了当前模型在长链推理中的三大瓶颈[44]
大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮
量子位· 2025-07-03 12:26
长链推理中的幻觉现象研究 - 核心观点:随着推理链从3步延伸到50+步,幻觉率暴增10倍,反思节点不仅无法纠错,反而会强化错误[1][2] - 核心机制:模型为保持语义一致性,宁可篡改协议定义也不否定前提,导致错误沿推理链滚雪球式放大[2][3][13] 实验设计与发现 - 实验方法:基于RFC协议文档构建受控知识域,包含1515道限定问题,其中30%预埋三重错误事实[7][9][11] - 关键发现: - 55.9%的预埋错误会触发内部知识编造流程[20] - 反思操作中模型使用更多模糊词汇(如"perhaps"出现37.14次/样本)和犹豫表达(如"but wait"出现27.85次/样本)[17] - 错误知识在Type II场景的采纳率达25.93%,且重复强化次数达2.06次/关键主张[17][18] 干预实验与检测瓶颈 - 正向干预实验显示: - Edit1(错误发生前干预)对下游影响最大,修正传播率达40%[26][27] - Edit2(直接替换错误节点)接受度65%,但幻觉残留率仍达70%[26][28] - 检测技术局限: - 最优检测方法耗时2小时/样本,准确率仅79%[27] - 分钟级检测方法准确率≤61.6%,78.9%高精度方案需高算力支持[30] - 现有技术无法识别元认知漂移现象(如反思中错误强化)[30] 数据表现对比 - 控制组与幻觉组差异: - 控制组幻觉主张仅0.68%(0.25条/样本),Type II组达18.14%(7.01条/样本)[17] - 错误主张深度:控制组11.53步,Type I组达38.10步[17] - 知识采纳行为: - 内部错误采纳率在Type I组达45.55%,且伴随41.65%的虚假修正[17] - 外部错误在Type II组的拒绝率仅45.13%,显著低于理想水平[17]