Workflow
TIMRUN
icon
搜索文档
思维链可无限延伸了,MIT等打破大模型上下文天花板
量子位· 2025-08-20 09:13
核心技术突破:TIM架构与TIMRUN引擎 - MIT等机构提出名为Thread Inference Model的新架构,旨在突破大模型的上下文窗口物理限制,理论上可实现无限延伸的思考长度[1][2] - TIM将推理过程建模为递归的子任务树结构,而非传统的线性token序列,每个任务单元包含思考过程、工具使用、子任务列表和结论四个关键组件[11][12] - 配合专用推理引擎TIMRUN,通过动态修剪已完成子任务并仅保留其结论,显著优化内存使用,实验显示可减少超过50%的KV缓存,在AIME 2024任务上剪枝率达64.1%[13] 解决行业核心痛点:上下文窗口限制 - 当前所有顶尖大模型均面临上下文窗口限制的困境,这在处理需要复杂多步骤任务或调用外部工具的现实应用时成为致命短板[5][6] - 传统解决方案如任务切分或历史信息压缩会导致信息完整性损失,TIM架构通过模拟编程时的递归结构实现"潜意识"信息过滤,提供新思路[7][8][10] - TIMRUN引擎实现动态内存管理和位置编码重用,当子任务被剪枝后,系统回收GPU内存页并重新分配位置编码,使模型在固定输出窗口下持续生成新内容[16][17][18] 性能表现与效率优势 - 在MATH500数学推理任务上,TIM-8b模型达到69%的准确率,在更具挑战性的AIME 2024上取得46.7%的成绩[26] - 在BrowseComp深度研究任务上,TIM-large的成功率达到7.8%,显著超过GPT-4o的1.9%[28] - 效率方面,TIMRUN在批量大小为30时吞吐量比基线系统SGLang提高约20%,且随着工具调用次数增加,TIMRUN吞吐量保持稳定而SGLang急剧下降[29][30] 工具调用与系统优化 - TIMRUN推理引擎在运行时内部直接发起工具调用,将传统多智能体系统中O(n²)的token成本复杂度降低到O(n),其中n为推理步骤数[20][21][22] - 实验数据显示,即使进行30多次工具调用,TIMRUN仍能保持稳定的吞吐量[23] - TIM采用结构化生成方式,整个推理过程被编码为JSON字典,通过约束解码确保输出格式正确,使模型可在一次推理中完成多次工具调用[13]