MIT新论文:2026推理模型过时了,“套娃模型”当立
量子位·2026-01-04 17:06

文章核心观点 - 麻省理工学院(MIT)提出了一种名为“递归语言模型(RLM)”或“套娃模型”的新范式,该范式通过将长文本存储在外部代码环境中,并让模型通过编写和执行Python代码来递归处理信息,从而革命性地提升了大型语言模型处理超长上下文的能力[1][3][5] - 该方法在多项性能指标上显著超越了以GPT-5为代表的传统推理模型,有效处理规模达到1000万Token级别,超出GPT-5等模型原生上下文窗口两个数量级,同时成本更低,且能有效缓解“上下文腐烂”问题[1][2][8][23] 技术原理与架构 - 核心范式转变:RLM将自然语言处理任务重构为交互式编程任务,引入外部Python REPL环境,将超长文本作为静态字符串变量存储在内存中,而非直接输入模型[9] - 解耦输入长度与上下文窗口:模型作为拥有读写权限的Agent,通过生成和执行代码操作外部变量,使可处理文本长度仅受物理内存限制,而非Transformer注意力机制跨度[10] - 基于代码的认知循环:模型通过“编写代码-观察执行结果”的迭代循环,以极低成本在庞大文本中进行索引和定位,仅在必要时读取关键段落,实现高效上下文管理[12][13] - 递归调用机制:模型可在编写的代码中调用自身的新实例来处理子任务,实现任务的并行化分解和多层级深度推理,确保每步处理都在模型原有上下文窗口限制内[14][15][18] 性能表现与优势 - 处理规模突破:RLM有效处理规模达1000万Token,远超现有前沿模型[23] - 缓解上下文腐烂:在信息密度高的复杂任务中,当输入长度超过特定阈值,RLM能保持得分稳定性,而基础模型性能随长度增加而衰减[24] - 复杂信息整合能力卓越:在OOLONG任务(需线性扫描处理几乎所有信息)上,RLM实现了双位数的性能提升;在更难的OOLONG-Pairs任务(需聚合文中成对信息片段)上,搭载RLM的GPT-5和Qwen3-Coder分别取得了58.00%23.11% 的F1分数,而它们的基础模型F1分数不足0.1%[26][27] - 成本效益显著:RLM通过按需读取策略改变了“上下文越长成本越高”的线性规律。例如,在BrowseComp-Plus测试中,GPT-5-mini处理600万至1100万Token的理论成本约为1.50至2.75美元,而RLM平均实际花费仅为0.99美元,成本低于全量阅读的基础模型和压缩上下文的Summary Agent方案[28][29][31] 涌现能力与策略 - 自发高效策略:模型在未经专门训练的情况下,自发学会利用正则表达式等编程工具过滤信息,例如先构造查询语句进行关键词匹配,仅提取相关片段阅读,大幅减少Token消耗[20] - 构建外部工作记忆:针对输出长度受限问题,模型能将子任务结果存储在列表变量中,最后通过代码连接,构建了一个动态、可编程的外部工作记忆空间,使其能像操作数据库一样操作文本[21][22]

MIT新论文:2026推理模型过时了,“套娃模型”当立 - Reportify