Workflow
Interaction Scaling
icon
搜索文档
ICLR 2026|人大&通义:别再只会堆上下文了!IterResearch用40K上下文轻松实现2048轮交互不退化
机器之心· 2026-03-02 23:16
核心观点 - 中国人民大学与阿里巴巴通义实验室的研究团队提出了一种名为IterResearch的全新迭代式深度研究范式,旨在解决传统搜索智能体在长程任务中因上下文线性膨胀而导致的性能退化问题[4] - 该范式通过马尔可夫式的工作空间重构,使智能体能够在恒定的40K上下文长度下完成多达2048次工具交互,且性能持续提升,在BrowseComp基准上的准确率从3.5%一路攀升至42.5%[4][19] - 该研究论文已被ICLR 2026接收,其提出的方法作为一种“即插即用”的推理范式,无需训练即可显著提升闭源模型的性能,为长程智能体的能力边界打开了新的想象空间[5][20][24] 传统范式的瓶颈 - 以ReAct为代表的传统范式将每一轮的思考和工具返回结果不断追加到同一个上下文窗口中,导致上下文随交互轮次线性增长(O(t))[8] - 这种“单上下文堆叠”设计在长程任务中引发两大结构性问题:一是“上下文窒息”,历史信息堆积压缩了后续推理的生成预算;二是“噪声污染”,早期错误路径和无关线索对后续推理产生级联干扰[9][15] - 社区提出的context folding、summary等缓解策略本质上是补救措施,并未从根本上改变上下文线性增长的结构,即使给予256K或更长的窗口也只能推迟而非避免崩溃[9] IterResearch的核心机制 - 核心思路是让智能体学会“边做边清理”,不再维护不断膨胀的完整历史,而是通过持续进化的“演进式报告”来综合已有成果、压缩无关信息、更新推理状态[11][13] - 每一步包含两个核心动作:决策阶段,智能体基于当前状态输出思考过程、更新后的演进报告和工具调用请求;状态转移阶段,仅保留更新后的报告、上一轮的工具调用及返回结果作为新的推理起点[14][16] - 从上下文管理视角看,IterResearch的工作空间始终保持恒定复杂度(O(1)),其机制与RNN/LSTM中的隐状态更新有结构相似性,但“隐状态”是一份显式、可解释的研究报告[14] 性能表现与关键发现 - 在BrowseComp基准测试中,当最大交互轮次从2放宽到2048时,IterResearch的准确率从3.5%持续攀升至42.5%,且在2048轮时未出现明显性能退化迹象[4][19] - 研究揭示了Interaction Scaling特性:给予智能体更多交互预算,其性能能持续提升,而不会因上下文溢出崩溃,表明长程任务的难点可能部分源于探索深度受限[17][19] - 尽管最大轮次设为2048,智能体平均仅使用约80轮,表明其学会了在获取足够信息后主动终止,而非机械耗尽预算[19] 范式优势与应用潜力 - 作为一种提示策略直接应用于闭源模型(如o3和DeepSeek-V3.1)而无需任何训练,相比传统ReAct范式,在BrowseComp上分别为两者带来了12.7个百分点和19.2个百分点的提升[21] - 这表明其核心优势在于结构性的认知机制,触及了长程推理中的共性瓶颈,而非依赖特定数据或微调技巧[23] - 该范式在训练框架、提示策略和跨范式迁移三个层面都展现了一致有效性,为智能体走向真正长期、持续运行提供了值得关注的方向[24]