Workflow
套娃模型
icon
搜索文档
MIT新论文:2026推理模型过时了,“套娃模型”当立
36氪· 2026-01-04 18:09
新模型范式:递归语言模型 - 核心观点:麻省理工学院提出名为“递归语言模型”的新范式,通过代码环境驱动递归推理,在长文本处理能力、成本效益和性能稳定性上显著超越以GPT-5为代表的传统推理模型,并可能成为主流[1][2][7] - 技术原理:模型将长文本作为字符串变量存入外部Python环境,通过编写并执行代码来交互式地索引、读取和处理文本,从而将处理能力与模型自身上下文窗口解耦,仅受物理内存限制[3][8] - 核心流程:模型进入“编写代码-观察执行结果”的迭代循环,并可通过递归调用自身或子模型处理分解后的子任务,子任务结果存储在环境变量中供后续整合,使整个处理过程保持在原始上下文窗口限制内[10][11][12][13] - 涌现能力:模型自发学会使用正则表达式等工具先检索后阅读,并利用变量拼接来生成超长答案,构建了外部可编程工作记忆空间,在不改变神经网络权重的情况下提升了复杂长文本的逻辑推理能力[15] 性能表现与成本优势 - 处理规模:有效处理规模达到1000万Token级别,超出GPT-5等前沿模型原生上下文窗口两个数量级[16] - 性能稳定性:在输入长度超过特定阈值后,RLM在任务完成质量上保持得分稳定性,而传统基础模型在复杂任务中性能随输入长度增加而下降[16] - 复杂任务表现:在OOLONG-Pairs测试中,RLM架构下的GPT-5和Qwen3-Coder分别取得了58.00%和23.11%的F1分数,而它们的基础模型F1分数不足0.1%[18] - 成本效益:在BrowseComp-Plus基准测试中,GPT-5-mini处理600万至1100万Token输入的理论成本约为1.50至2.75美元,而RLM的平均实际花费仅为0.99美元,改变了“上下文越长成本越高”的线性规律[19][20][22]