递归语言模型RLM
搜索文档
真·开外挂!MIT新研究:架构0改动,让大模型解锁千万级上下文
量子位· 2026-01-19 11:48
文章核心观点 - MIT CSAIL研究团队提出了一种名为递归语言模型(RLM)的新方法,旨在解决大模型处理超长文本时的“上下文腐烂”问题,该方法不修改模型架构,而是通过将提示词“外包”给可交互的Python环境,让模型通过自动编程和递归调用来拆解与处理任务,从而使其能够处理远超自身原生上下文窗口的超长文本[1][2][4] 现有长文本处理方法的局限 - 当前大模型在处理超长文本时普遍存在“上下文腐烂”问题,即文本越长,模型对早期信息的记忆越模糊,推理性能直线下滑[5] - 行业主流解决方案包括上下文压缩、检索增强生成(RAG)以及对模型进行架构级优化,例如GPT-5.2-Codex采用窗口内原生上下文压缩技术,而GPT、Claude、Qwen等企业级版本原生集成RAG功能[7][8][9] RLM方法的核心机制 - RLM的核心思路是将上下文处理“外包”,为模型搭建一个可交互的Python编程环境(REPL)[11][13] - 处理流程分为四步:首先将超长提示词作为字符串变量存入Python环境;接着模型像程序员一样编写代码对文本进行筛选、探查和拆分;随后将复杂任务拆解为子任务并递归调用自身或轻量化子模型处理;最后整合所有子任务结果形成最终输出[14] - 该方法全程由模型自主决策,实现了输入文本长度与模型上下文窗口的解耦,按需处理文本[15] RLM的性能表现 - 实验显示,RLM有效处理规模已突破千万级Token,超过GPT-5等前沿模型原生上下文窗口两个数量级[16] - 在OOLONG-Pairs任务中,基础GPT-5和Qwen3-Coder的F1分数不足0.1%,采用RLM方案后,两款模型的F1分数分别提升至58.00%和23.11%[16] - 在600万至1100万Token规模的BrowseComp-Plus(1K)多文档推理任务中,RLM(GPT-5)的正确率高达91.33%,大幅超越其他方案[16] - 在要求线性扫描几乎所有信息的OOLONG任务中,RLM也实现了双位数的性能提升[17] RLM的成本与适用性 - 从调用成本看,在50分位数指标上,RLM的成本与其他长文本处理方案处于同一水平甚至更低,表明在大多数常规任务中其性价比较有优势[18][19] - 但在95分位数等高百分位区间,RLM成本会出现明显飙升,主要因其推理过程动态,会根据任务复杂度自主决定代码编写和递归调用次数,从而增加API调用次数[20][21] - RLM是一种不修改模型架构的通用推理策略,理论上任何模型都能直接应用该方法[23]