上下文腐烂（Context Rot）

搜索文档

机器之心· 2025-10-16 15:34

文章核心观点 - 递归语言模型（RLM）是一种通过将长上下文处理任务分解并递归式交互来解决“上下文腐烂”问题的新范式 [4][6][7] - RLM在实验中展现出显著优势：在OOLONG基准测试中，使用GPT-5-mini的RLM正确答案数量是直接使用GPT-5的两倍以上，且成本更低 [5][28][30] - RLM能够处理超长上下文（如1000万tokens）且性能不衰减，优于ReAct等方法，有望成为推理时扩展能力领域的下一个里程碑 [5][7][34][35] 技术原理与实现 - RLM将上下文视为可操作的变量，主模型（root LM）在类似Jupyter Notebook的REPL环境中工作，通过编写代码递归调用自身或其他LM来处理上下文块 [8][14][17] - 与传统“分块”策略不同，RLM让语言模型自主决定如何探索、拆解和递归处理长prompt，提供了更通用和智能的解决方案 [17][40] - RLM框架的优势包括：根模型的上下文窗口很少被塞满、拥有灵活的上下文访问策略、理论上能处理任何可加载到内存的模态数据 [23] 性能表现与基准测试 - 在OOLONG基准测试的trec_coarse数据集上，GPT-5在132-263k token上下文中的得分约为33% [27] - 使用GPT-5-mini的RLM在132k token情况下性能超过GPT-5达114%，在263k token情况下性能提升49%，且每次调用的成本更低 [5][28][30][32] - 在BrowseComp-Plus的Deep Research任务中，基于GPT-5的RLM在处理从10万到1000万tokens的上下文时性能未出现衰减，且优于ReAct+检索的方法 [34][35][39] 行业影响与未来展望 - RLM与现代Agent框架的根本区别在于：Agent依赖人类直觉设计问题拆解方式，而RLM由语言模型自主决定问题拆解方式 [36][40] - RLM的性能与底层模型能力提升直接相关，如果未来最强模型能处理1000万token上下文，那么RLM可能以一半成本处理1亿token上下文 [37] - 研究者认为显式训练以递归式推理为核心机制的RLM，很可能成为推理时扩展能力领域的下一个里程碑 [7]

递归语言模型

上下文腐烂（Context Rot）

Artificial Intelligence

递归语言模型（Recursive Language Models

Artificial Intelligence

递归语言模型（Recursive Language Models

RLMs）

GPT - 5