递归语言模型RLM - 财报，业绩电话会，研报，新闻

递归语言模型RLM

搜索文档

量子位· 2026-01-19 11:48

文章核心观点 - MIT CSAIL研究团队提出了一种名为递归语言模型（RLM）的新方法，旨在解决大模型处理超长文本时的“上下文腐烂”问题，该方法不修改模型架构，而是通过将提示词“外包”给可交互的Python环境，让模型通过自动编程和递归调用来拆解与处理任务，从而使其能够处理远超自身原生上下文窗口的超长文本[1][2][4] 现有长文本处理方法的局限 - 当前大模型在处理超长文本时普遍存在“上下文腐烂”问题，即文本越长，模型对早期信息的记忆越模糊，推理性能直线下滑[5] - 行业主流解决方案包括上下文压缩、检索增强生成（RAG）以及对模型进行架构级优化，例如GPT-5.2-Codex采用窗口内原生上下文压缩技术，而GPT、Claude、Qwen等企业级版本原生集成RAG功能[7][8][9] RLM方法的核心机制 - RLM的核心思路是将上下文处理“外包”，为模型搭建一个可交互的Python编程环境（REPL）[11][13] - 处理流程分为四步：首先将超长提示词作为字符串变量存入Python环境；接着模型像程序员一样编写代码对文本进行筛选、探查和拆分；随后将复杂任务拆解为子任务并递归调用自身或轻量化子模型处理；最后整合所有子任务结果形成最终输出[14] - 该方法全程由模型自主决策，实现了输入文本长度与模型上下文窗口的解耦，按需处理文本[15] RLM的性能表现 - 实验显示，RLM有效处理规模已突破千万级Token，超过GPT-5等前沿模型原生上下文窗口两个数量级[16] - 在OOLONG-Pairs任务中，基础GPT-5和Qwen3-Coder的F1分数不足0.1%，采用RLM方案后，两款模型的F1分数分别提升至58.00%和23.11%[16] - 在600万至1100万Token规模的BrowseComp-Plus（1K）多文档推理任务中，RLM（GPT-5）的正确率高达91.33%，大幅超越其他方案[16] - 在要求线性扫描几乎所有信息的OOLONG任务中，RLM也实现了双位数的性能提升[17] RLM的成本与适用性 - 从调用成本看，在50分位数指标上，RLM的成本与其他长文本处理方案处于同一水平甚至更低，表明在大多数常规任务中其性价比较有优势[18][19] - 但在95分位数等高百分位区间，RLM成本会出现明显飙升，主要因其推理过程动态，会根据任务复杂度自主决定代码编写和递归调用次数，从而增加API调用次数[20][21] - RLM是一种不修改模型架构的通用推理策略，理论上任何模型都能直接应用该方法[23]

Artificial Intelligence

Artificial Intelligence

递归语言模型RLM