递归推理 - 财报，业绩电话会，研报，新闻

递归推理

搜索文档

MIT新论文：2026推理模型过时了，“套娃模型”当立

36氪· 2026-01-04 18:09

新模型范式：递归语言模型 - 核心观点：麻省理工学院提出名为“递归语言模型”的新范式，通过代码环境驱动递归推理，在长文本处理能力、成本效益和性能稳定性上显著超越以GPT-5为代表的传统推理模型，并可能成为主流[1][2][7] - 技术原理：模型将长文本作为字符串变量存入外部Python环境，通过编写并执行代码来交互式地索引、读取和处理文本，从而将处理能力与模型自身上下文窗口解耦，仅受物理内存限制[3][8] - 核心流程：模型进入“编写代码-观察执行结果”的迭代循环，并可通过递归调用自身或子模型处理分解后的子任务，子任务结果存储在环境变量中供后续整合，使整个处理过程保持在原始上下文窗口限制内[10][11][12][13] - 涌现能力：模型自发学会使用正则表达式等工具先检索后阅读，并利用变量拼接来生成超长答案，构建了外部可编程工作记忆空间，在不改变神经网络权重的情况下提升了复杂长文本的逻辑推理能力[15] 性能表现与成本优势 - 处理规模：有效处理规模达到1000万Token级别，超出GPT-5等前沿模型原生上下文窗口两个数量级[16] - 性能稳定性：在输入长度超过特定阈值后，RLM在任务完成质量上保持得分稳定性，而传统基础模型在复杂任务中性能随输入长度增加而下降[16] - 复杂任务表现：在OOLONG-Pairs测试中，RLM架构下的GPT-5和Qwen3-Coder分别取得了58.00%和23.11%的F1分数，而它们的基础模型F1分数不足0.1%[18] - 成本效益：在BrowseComp-Plus基准测试中，GPT-5-mini处理600万至1100万Token输入的理论成本约为1.50至2.75美元，而RLM的平均实际花费仅为0.99美元，改变了“上下文越长成本越高”的线性规律[19][20][22]

MIT新论文：2026推理模型过时了，“套娃模型”当立

量子位· 2026-01-04 17:06

文章核心观点 - 麻省理工学院（MIT）提出了一种名为“递归语言模型（RLM）”或“套娃模型”的新范式，该范式通过将长文本存储在外部代码环境中，并让模型通过编写和执行Python代码来递归处理信息，从而革命性地提升了大型语言模型处理超长上下文的能力[1][3][5] - 该方法在多项性能指标上显著超越了以GPT-5为代表的传统推理模型，有效处理规模达到**1000万Token**级别，超出GPT-5等模型原生上下文窗口**两个数量级**，同时成本更低，且能有效缓解“上下文腐烂”问题[1][2][8][23] 技术原理与架构 - 核心范式转变：RLM将自然语言处理任务重构为交互式编程任务，引入外部Python REPL环境，将超长文本作为静态字符串变量存储在内存中，而非直接输入模型[9] - 解耦输入长度与上下文窗口：模型作为拥有读写权限的Agent，通过生成和执行代码操作外部变量，使可处理文本长度仅受物理内存限制，而非Transformer注意力机制跨度[10] - 基于代码的认知循环：模型通过“编写代码-观察执行结果”的迭代循环，以极低成本在庞大文本中进行索引和定位，仅在必要时读取关键段落，实现高效上下文管理[12][13] - 递归调用机制：模型可在编写的代码中调用自身的新实例来处理子任务，实现任务的并行化分解和多层级深度推理，确保每步处理都在模型原有上下文窗口限制内[14][15][18] 性能表现与优势 - 处理规模突破：RLM有效处理规模达**1000万Token**，远超现有前沿模型[23] - 缓解上下文腐烂：在信息密度高的复杂任务中，当输入长度超过特定阈值，RLM能保持得分稳定性，而基础模型性能随长度增加而衰减[24] - 复杂信息整合能力卓越：在OOLONG任务（需线性扫描处理几乎所有信息）上，RLM实现了**双位数**的性能提升；在更难的OOLONG-Pairs任务（需聚合文中成对信息片段）上，搭载RLM的GPT-5和Qwen3-Coder分别取得了**58.00%** 和 **23.11%** 的F1分数，而它们的基础模型F1分数不足**0.1%**[26][27] - 成本效益显著：RLM通过按需读取策略改变了“上下文越长成本越高”的线性规律。例如，在BrowseComp-Plus测试中，GPT-5-mini处理**600万至1100万Token**的理论成本约为**1.50至2.75美元**，而RLM平均实际花费仅为**0.99美元**，成本低于全量阅读的基础模型和压缩上下文的Summary Agent方案[28][29][31] 涌现能力与策略 - 自发高效策略：模型在未经专门训练的情况下，自发学会利用正则表达式等编程工具过滤信息，例如先构造查询语句进行关键词匹配，仅提取相关片段阅读，大幅减少Token消耗[20] - 构建外部工作记忆：针对输出长度受限问题，模型能将子任务结果存储在列表变量中，最后通过代码连接，构建了一个动态、可编程的外部工作记忆空间，使其能像操作数据库一样操作文本[21][22]