递归推理
搜索文档
MIT新论文:2026推理模型过时了,“套娃模型”当立
36氪· 2026-01-04 18:09
新模型范式:递归语言模型 - 核心观点:麻省理工学院提出名为“递归语言模型”的新范式,通过代码环境驱动递归推理,在长文本处理能力、成本效益和性能稳定性上显著超越以GPT-5为代表的传统推理模型,并可能成为主流[1][2][7] - 技术原理:模型将长文本作为字符串变量存入外部Python环境,通过编写并执行代码来交互式地索引、读取和处理文本,从而将处理能力与模型自身上下文窗口解耦,仅受物理内存限制[3][8] - 核心流程:模型进入“编写代码-观察执行结果”的迭代循环,并可通过递归调用自身或子模型处理分解后的子任务,子任务结果存储在环境变量中供后续整合,使整个处理过程保持在原始上下文窗口限制内[10][11][12][13] - 涌现能力:模型自发学会使用正则表达式等工具先检索后阅读,并利用变量拼接来生成超长答案,构建了外部可编程工作记忆空间,在不改变神经网络权重的情况下提升了复杂长文本的逻辑推理能力[15] 性能表现与成本优势 - 处理规模:有效处理规模达到1000万Token级别,超出GPT-5等前沿模型原生上下文窗口两个数量级[16] - 性能稳定性:在输入长度超过特定阈值后,RLM在任务完成质量上保持得分稳定性,而传统基础模型在复杂任务中性能随输入长度增加而下降[16] - 复杂任务表现:在OOLONG-Pairs测试中,RLM架构下的GPT-5和Qwen3-Coder分别取得了58.00%和23.11%的F1分数,而它们的基础模型F1分数不足0.1%[18] - 成本效益:在BrowseComp-Plus基准测试中,GPT-5-mini处理600万至1100万Token输入的理论成本约为1.50至2.75美元,而RLM的平均实际花费仅为0.99美元,改变了“上下文越长成本越高”的线性规律[19][20][22]
MIT新论文:2026推理模型过时了,“套娃模型”当立
量子位· 2026-01-04 17:06
文章核心观点 - 麻省理工学院(MIT)提出了一种名为“递归语言模型(RLM)”或“套娃模型”的新范式,该范式通过将长文本存储在外部代码环境中,并让模型通过编写和执行Python代码来递归处理信息,从而革命性地提升了大型语言模型处理超长上下文的能力[1][3][5] - 该方法在多项性能指标上显著超越了以GPT-5为代表的传统推理模型,有效处理规模达到**1000万Token**级别,超出GPT-5等模型原生上下文窗口**两个数量级**,同时成本更低,且能有效缓解“上下文腐烂”问题[1][2][8][23] 技术原理与架构 - 核心范式转变:RLM将自然语言处理任务重构为交互式编程任务,引入外部Python REPL环境,将超长文本作为静态字符串变量存储在内存中,而非直接输入模型[9] - 解耦输入长度与上下文窗口:模型作为拥有读写权限的Agent,通过生成和执行代码操作外部变量,使可处理文本长度仅受物理内存限制,而非Transformer注意力机制跨度[10] - 基于代码的认知循环:模型通过“编写代码-观察执行结果”的迭代循环,以极低成本在庞大文本中进行索引和定位,仅在必要时读取关键段落,实现高效上下文管理[12][13] - 递归调用机制:模型可在编写的代码中调用自身的新实例来处理子任务,实现任务的并行化分解和多层级深度推理,确保每步处理都在模型原有上下文窗口限制内[14][15][18] 性能表现与优势 - 处理规模突破:RLM有效处理规模达**1000万Token**,远超现有前沿模型[23] - 缓解上下文腐烂:在信息密度高的复杂任务中,当输入长度超过特定阈值,RLM能保持得分稳定性,而基础模型性能随长度增加而衰减[24] - 复杂信息整合能力卓越:在OOLONG任务(需线性扫描处理几乎所有信息)上,RLM实现了**双位数**的性能提升;在更难的OOLONG-Pairs任务(需聚合文中成对信息片段)上,搭载RLM的GPT-5和Qwen3-Coder分别取得了**58.00%** 和 **23.11%** 的F1分数,而它们的基础模型F1分数不足**0.1%**[26][27] - 成本效益显著:RLM通过按需读取策略改变了“上下文越长成本越高”的线性规律。例如,在BrowseComp-Plus测试中,GPT-5-mini处理**600万至1100万Token**的理论成本约为**1.50至2.75美元**,而RLM平均实际花费仅为**0.99美元**,成本低于全量阅读的基础模型和压缩上下文的Summary Agent方案[28][29][31] 涌现能力与策略 - 自发高效策略:模型在未经专门训练的情况下,自发学会利用正则表达式等编程工具过滤信息,例如先构造查询语句进行关键词匹配,仅提取相关片段阅读,大幅减少Token消耗[20] - 构建外部工作记忆:针对输出长度受限问题,模型能将子任务结果存储在列表变量中,最后通过代码连接,构建了一个动态、可编程的外部工作记忆空间,使其能像操作数据库一样操作文本[21][22]