上下文腐烂(Context Rot)
搜索文档
递归语言模型登场!MIT华人新作爆火,扩展模型上下文便宜又简单
机器之心· 2025-10-16 15:34
文章核心观点 - 递归语言模型(RLM)是一种通过将长上下文处理任务分解并递归式交互来解决“上下文腐烂”问题的新范式 [4][6][7] - RLM在实验中展现出显著优势:在OOLONG基准测试中,使用GPT-5-mini的RLM正确答案数量是直接使用GPT-5的两倍以上,且成本更低 [5][28][30] - RLM能够处理超长上下文(如1000万tokens)且性能不衰减,优于ReAct等方法,有望成为推理时扩展能力领域的下一个里程碑 [5][7][34][35] 技术原理与实现 - RLM将上下文视为可操作的变量,主模型(root LM)在类似Jupyter Notebook的REPL环境中工作,通过编写代码递归调用自身或其他LM来处理上下文块 [8][14][17] - 与传统“分块”策略不同,RLM让语言模型自主决定如何探索、拆解和递归处理长prompt,提供了更通用和智能的解决方案 [17][40] - RLM框架的优势包括:根模型的上下文窗口很少被塞满、拥有灵活的上下文访问策略、理论上能处理任何可加载到内存的模态数据 [23] 性能表现与基准测试 - 在OOLONG基准测试的trec_coarse数据集上,GPT-5在132-263k token上下文中的得分约为33% [27] - 使用GPT-5-mini的RLM在132k token情况下性能超过GPT-5达114%,在263k token情况下性能提升49%,且每次调用的成本更低 [5][28][30][32] - 在BrowseComp-Plus的Deep Research任务中,基于GPT-5的RLM在处理从10万到1000万tokens的上下文时性能未出现衰减,且优于ReAct+检索的方法 [34][35][39] 行业影响与未来展望 - RLM与现代Agent框架的根本区别在于:Agent依赖人类直觉设计问题拆解方式,而RLM由语言模型自主决定问题拆解方式 [36][40] - RLM的性能与底层模型能力提升直接相关,如果未来最强模型能处理1000万token上下文,那么RLM可能以一半成本处理1亿token上下文 [37] - 研究者认为显式训练以递归式推理为核心机制的RLM,很可能成为推理时扩展能力领域的下一个里程碑 [7]