结构化推理
搜索文档
思维链可无限延伸了,MIT等打破大模型上下文天花板
量子位· 2025-08-20 09:13
核心技术突破:TIM架构与TIMRUN引擎 - MIT等机构提出名为Thread Inference Model的新架构,旨在突破大模型的上下文窗口物理限制,理论上可实现无限延伸的思考长度[1][2] - TIM将推理过程建模为递归的子任务树结构,而非传统的线性token序列,每个任务单元包含思考过程、工具使用、子任务列表和结论四个关键组件[11][12] - 配合专用推理引擎TIMRUN,通过动态修剪已完成子任务并仅保留其结论,显著优化内存使用,实验显示可减少超过50%的KV缓存,在AIME 2024任务上剪枝率达64.1%[13] 解决行业核心痛点:上下文窗口限制 - 当前所有顶尖大模型均面临上下文窗口限制的困境,这在处理需要复杂多步骤任务或调用外部工具的现实应用时成为致命短板[5][6] - 传统解决方案如任务切分或历史信息压缩会导致信息完整性损失,TIM架构通过模拟编程时的递归结构实现"潜意识"信息过滤,提供新思路[7][8][10] - TIMRUN引擎实现动态内存管理和位置编码重用,当子任务被剪枝后,系统回收GPU内存页并重新分配位置编码,使模型在固定输出窗口下持续生成新内容[16][17][18] 性能表现与效率优势 - 在MATH500数学推理任务上,TIM-8b模型达到69%的准确率,在更具挑战性的AIME 2024上取得46.7%的成绩[26] - 在BrowseComp深度研究任务上,TIM-large的成功率达到7.8%,显著超过GPT-4o的1.9%[28] - 效率方面,TIMRUN在批量大小为30时吞吐量比基线系统SGLang提高约20%,且随着工具调用次数增加,TIMRUN吞吐量保持稳定而SGLang急剧下降[29][30] 工具调用与系统优化 - TIMRUN推理引擎在运行时内部直接发起工具调用,将传统多智能体系统中O(n²)的token成本复杂度降低到O(n),其中n为推理步骤数[20][21][22] - 实验数据显示,即使进行30多次工具调用,TIMRUN仍能保持稳定的吞吐量[23] - TIM采用结构化生成方式,整个推理过程被编码为JSON字典,通过约束解码确保输出格式正确,使模型可在一次推理中完成多次工具调用[13]
KAG-Thinker:「结构化」思考新范式,支持逻辑严谨的大模型复杂推理
机器之心· 2025-07-08 14:54
模型发布与背景 - 蚂蚁集团知识引擎团队联合浙江大学、同济大学发布KAG-Thinker模型,聚焦复杂推理任务的结构化思考范式构建[1] - 该模型是KAG框架的重要迭代升级,旨在提升推理过程的逻辑性与稳定性[1] - 相比OpenAI的Deep Research等Model-Centric方法,KAG-Thinker通过建立分层"脚手架"解决自由发挥式推理的不严谨问题[1] 技术架构与创新 - 采用Logical Form自然语言与逻辑函数双语义表示机制,提升结构化知识利用率[3] - 提出"广度拆分+深度求解"方法:将复杂问题分解为原子问题并保持逻辑依赖关系[10] - 引入知识边界判定机制,通过无监督过程判断是否需外部检索[12][13] - 开发检索抗噪模块,过滤无关内容并提取核心信息作为答案依据[17][18] - 集成4种Logical Form求解器(Retrieval/Deduce/Math/Output)处理不同类型子问题[19][20] 性能表现 - 在7个单跳/多跳推理数据集上平均性能超越SOTA方法ReSearch达4.1%[6][24] - 单跳数据集平均提升4.5%,多跳数据集提升3.9%[25] - 与无检索基线相比,性能分别高出Naive Generation 27.1%和CoT 34.6%[23] - 集成KAG框架后,EM和F1指标较基础Thinker模型再提升3.0%和3.8%[31] 框架升级 - KAG V0.8扩展私域/公网知识库支持,新增多种基础索引类型[28] - 全面拥抱MCP协议,支持接入公网数据源及Agent流程集成[29] - 在HotpotQA等数据集上稳定性较前代提升17.9%(7B)和7.6%(72B)[33] 专业领域应用 - 医疗领域定制版KAG-Med-Thinker在MedQA任务中超越IRCoT 3.95%、ReAct 4.41%[39] - 相比Naive RAG自适应检索模型性能提升3.8%[39]