大型推理模型
搜索文档
R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式
机器之心· 2025-10-22 16:46
研究背景与核心问题 - 大型推理模型(LRMs)如OpenAI o1、DeepSeek-R1的发展标志着AI推理进入“测试时扩展”新纪元,在数学推理、代码生成等领域取得突破[4] - 当前主流评测基准(如MATH500、AIME)聚焦于孤立的单步问题,与真实世界需要跨问题长链推理的场景存在根本性局限[4] - 真实场景如软件工程师调试相互依赖的代码模块、数学研究者基于前序定理推导结论,要求模型具备跨子问题的推理连贯性、资源分配和反思纠错能力[4][6] - 核心问题在于现有评测无法揭示大型推理模型在长链推理场景下的能力边界,传统训练数据也无法培养这种能力[5] R-HORIZON方法与基准 - R-HORIZON是首个系统性评估与增强LRMs长链推理能力的方法与基准,由复旦大学与美团LongCat Team联合推出[8] - 该方法提出简洁而强大的问题组合(Query Composition)方法,通过建立问题间依赖关系将孤立任务转化为复杂多步骤推理场景[11] - 方法具有三大优势:可灵活控制推理链长度、可灵活设定问题间依赖关系、基于现有数据集构建无需额外标注的低成本特性[12][17] - 构建的评测基准涵盖6大代表性数据集,包括数学推理(MATH500, AIME)、代码生成(LiveCodeBench)和智能体应用(WebShaper)[15] 核心发现:性能断崖与瓶颈分析 - 评测20+个主流LRMs揭示惊人现象:即使最先进模型在长链推理场景下也会出现性能断崖式下降[16] - DeepSeek-R1在AIME25单问题场景下准确率达87.3%,但在5个组合问题场景下暴跌至24.6%[21] - 模型规模影响显著,更大模型对多步推理挑战展现出更强韧性[21] - 当前LRMs存在三大关键瓶颈:有效推理长度受限、反思机制高度局部化、思考预算分配失衡[19][23][29] R-HORIZON训练成果 - 使用R-HORIZON构建的长链推理数据并通过GRPO算法进行强化学习训练,实现双重性能提升[26][30] - 使用n=2组合问题训练不仅大幅提升多步推理性能(AIME24 n=2场景提升17.4分),单问题性能也显著增强(AIME24单题场景提升7.5分)[31][33] - 训练带来推理机制的深层改变:更高效的推理长度、更合理的预算分配、更长程的反思能力[34][35][36] - 增加组合复杂度(n=4)增强了模型处理需要更多推理步骤问题的能力,在MATH500 (n=8)上达到50.6%的准确率[31][33] 技术贡献与行业影响 - R-HORIZON标志着大型推理模型研究从“能解决什么问题”到“能走多远”的范式转变[39] - 提供完整开源生态,包括评测代码、Benchmark数据、训练数据和代码、数据构建流程及详细文档[40][44] - 为行业提供低成本、高效率的能力提升路径,通过Query Composition方法实现可控的长链推理数据构建[44] - 深度机制分析为未来推理模型改进指明方向,揭示了当前模型在长链推理中的三大瓶颈[44]
AI成为数学家得力助手还要多久
科技日报· 2025-06-17 09:18
AI在数学领域的应用进展 - 美国国防高级研究计划局启动"指数性数学"计划 旨在开发提升数学研究效率的AI"合著者"系统 [1] - 新一代大型推理模型如OpenAI的o3和Anthropic的Claude 4 Thinking展现进步 在美国数学邀请赛中表现接近优秀高中生水平 [2] - 谷歌"深度思维"的AlphaProof系统结合语言模型与AlphaZero 取得与国际数学奥林匹克竞赛银牌得主相当的成绩 [2] - 谷歌AlphaEvolve模型在多个长期未解数学与计算难题上找到优于人类现有方案的解法 [2] AI当前在数学研究中的局限性 - 大型语言模型在FrontierMath测试中几乎集体"交白卷" 表明其面对全新高难度题目时能力不足 [3] - AI在解决"P vs NP"和"黎曼猜想"等重大数学难题时仍力不从心 竞赛题与真正数学研究存在差异 [2] - AI缺乏真正的创造力 能协助发现路径但无法实现真正的创新与突破 [8] AI处理数学问题的技术突破 - 加州理工学院团队开发"超级步骤"方法 将多个步骤打包以应对"超长推理链"问题 [5] - 该方法在安德鲁斯-柯蒂斯猜想上取得突破 推翻了一个40年来被广泛引用的"反例" [5] - "压缩路径"思路适用于所有需要推理链条的领域 有望推动数学研究新突破 [6] AI辅助数学研究的创新方式 - AlphaEvolve通过LLM生成并改进解题代码 配合评估模型提出比人类更优的解法 [7] - Meta的PatternBoost AI系统可生成相似数学概念 帮助激发研究灵感 [7] - AI工具可作为人类直觉的"侦察兵" 协助发现新路径和避开错误方向 [8]
「边思考、边搜索、边写作」WebThinker开启AI搜索&研究新纪元!
机器之心· 2025-05-15 16:40
研究背景 - 大型推理模型如OpenAI-o1和DeepSeek-R1在数学、编程等领域表现卓越,但在需要实时网络信息的复杂任务中存在局限性[6] - 现有开源深度搜索智能体采用RAG技术,但受限于预定义工作流程,难以深入探索网页信息[8] 技术框架 - WebThinker框架包含两种运行模式:问题解决模式和报告生成模式[13] - 问题解决模式赋予LRM深度网页探索功能,可自主发起网络搜索并提取信息[13] - 报告生成模式实现自主思考-搜索-写作策略,整合推理、搜索和报告撰写[13] - 框架采用强化学习训练策略,提升LRM调用研究工具的能力[15] 技术创新 - 突破传统RAG限制,实现端到端任务执行,无需遵循预设工作流程[10] - 深度网页探索器使LRM能自主搜索、导航并提取高质量信息[15] - 自主思考-搜索-写作策略配备三种专门工具:撰写、检查和编辑报告[15] 实验结果 - 在GPQA、GAIA、WebWalkerQA和HLE四个基准测试中表现优异[18][20] - WebThinker-32B-RL在GPQA科学问答中取得70.7%平均准确率,显著优于基准模型[21] - 在GAIA通用AI助手任务中达到48.5%准确率,优于其他方法[21] - 在Glaive研究报告生成任务中,完整性(8.4)和彻底性(8.2)评分领先[23] 应用前景 - 可应用于金融、科学、工程等知识密集型领域的研究工作[6] - 未来可扩展多模态深度搜索能力,处理图像、视频等信息[33] - 计划增强GUI网页探索能力,支持更复杂的交互任务[35]