MIT新论文：2026推理模型过时了，“套娃模型”当立

文章核心观点 - 麻省理工学院（MIT）提出了一种名为“递归语言模型（RLM）”或“套娃模型”的新范式，该范式通过将长文本存储在外部代码环境中，并让模型通过编写和执行Python代码来递归处理信息，从而革命性地提升了大型语言模型处理超长上下文的能力[1][3][5] - 该方法在多项性能指标上显著超越了以GPT-5为代表的传统推理模型，有效处理规模达到1000万Token级别，超出GPT-5等模型原生上下文窗口两个数量级，同时成本更低，且能有效缓解“上下文腐烂”问题[1][2][8][23] 技术原理与架构 - 核心范式转变：RLM将自然语言处理任务重构为交互式编程任务，引入外部Python REPL环境，将超长文本作为静态字符串变量存储在内存中，而非直接输入模型[9] - 解耦输入长度与上下文窗口：模型作为拥有读写权限的Agent，通过生成和执行代码操作外部变量，使可处理文本长度仅受物理内存限制，而非Transformer注意力机制跨度[10] - 基于代码的认知循环：模型通过“编写代码-观察执行结果”的迭代循环，以极低成本在庞大文本中进行索引和定位，仅在必要时读取关键段落，实现高效上下文管理[12][13] - 递归调用机制：模型可在编写的代码中调用自身的新实例来处理子任务，实现任务的并行化分解和多层级深度推理，确保每步处理都在模型原有上下文窗口限制内[14][15][18] 性能表现与优势 - 处理规模突破：RLM有效处理规模达1000万Token，远超现有前沿模型[23] - 缓解上下文腐烂：在信息密度高的复杂任务中，当输入长度超过特定阈值，RLM能保持得分稳定性，而基础模型性能随长度增加而衰减[24] - 复杂信息整合能力卓越：在OOLONG任务（需线性扫描处理几乎所有信息）上，RLM实现了双位数的性能提升；在更难的OOLONG-Pairs任务（需聚合文中成对信息片段）上，搭载RLM的GPT-5和Qwen3-Coder分别取得了58.00% 和 23.11% 的F1分数，而它们的基础模型F1分数不足0.1%[26][27] - 成本效益显著：RLM通过按需读取策略改变了“上下文越长成本越高”的线性规律。例如，在BrowseComp-Plus测试中，GPT-5-mini处理600万至1100万Token的理论成本约为1.50至2.75美元，而RLM平均实际花费仅为0.99美元，成本低于全量阅读的基础模型和压缩上下文的Summary Agent方案[28][29][31] 涌现能力与策略 - 自发高效策略：模型在未经专门训练的情况下，自发学会利用正则表达式等编程工具过滤信息，例如先构造查询语句进行关键词匹配，仅提取相关片段阅读，大幅减少Token消耗[20] - 构建外部工作记忆：针对输出长度受限问题，模型能将子任务结果存储在列表变量中，最后通过代码连接，构建了一个动态、可编程的外部工作记忆空间，使其能像操作数据库一样操作文本[21][22]