分层递归推理 - 财报，业绩电话会，研报，新闻

分层递归推理

搜索文档

新架构模型HRM-Text创新纪录！1B参数、1000美元，图灵奖得主都亲自下场了

机器之心· 2026-06-09 12:09

HRM-Text模型核心创新 - Sapient Intelligence发布HRM-Text模型，这是一个约10亿参数的模型，在MATH上得分为56.2，在GSM8K上得分为84.5，在ARC-Challenge上得分为81.9 [1] - 该模型从零开始预训练，仅使用约400亿个唯一token（考虑重复采样后总训练量约600亿token），其训练量约为Llama 3.2 3B（9万亿token）的1/225，约为Qwen3.5 2B（36万亿token）的1/900 [3] - 训练成本极低，仅约1500美元，使用16块H100 GPU运行不到两天 [1] - 模型的核心目标是挑战“规模扩张”之外的路径，探索在有限数据和算力下，通过架构与训练目标的共同设计来提高计算效率，论文标题直接点明方向为“Efficient Pretraining Beyond Scaling” [4][5] 模型架构创新：分层递归计算 - 模型引入了高层模块H和低层模块L的双时间尺度递归结构，让有限参数在输出前进行多轮内部计算，以提高有效计算深度 [9][12] - 标准Transformer是线性传递，而HRM-Text是让两组模块在同一个潜空间中反复迭代同一份内部状态，H和L属于同一个网络，并非独立模型 [12] - 每次前向传播会执行两个高层周期，每个周期先完成三次低层模块更新，再完成一次高层模块更新，因此在预测一个token之前，模型会完成8次递归更新（6次低层更新和2次高层更新） [13][14] - 这种递归架构并非简单增加参数，而是增加了每个token输出前的串行计算量，因此参数规模、训练成本和实际推理效率需要分别讨论 [16] - 为了稳定深层递归训练，模型引入了MagicNorm来同时兼顾前向和反向传播的稳定性，并引入了warmup deep credit assignment来逐步控制梯度回传的深度范围 [18][19] - 分析表明，HRM-Text的深层计算能保持明显的表征变化，说明递归步骤在持续修改内部状态并提供增量信息，有效深度高于标准Transformer [20][22] 训练目标创新：集中训练信号 - 在预训练目标上，HRM-Text省略了大规模原始文本预训练，直接使用“指令-回答”数据对从零开始训练，并且只对回答部分计算token级损失，将训练信号更集中地用于任务理解和答案生成 [9][23] - 与“仅回答目标”配套的是PrefixLM注意力掩码，允许指令部分的token彼此双向可见，进入回答部分后再恢复标准的因果生成方式，这改善了模型整合指令上下文的方式 [24][25] - 消融实验证明了各项改进的贡献：以ARC-Challenge为例，1B Transformer使用全序列预测和causal mask得分为51.91；仅预测回答提高到62.88；加入PrefixLM后提高到74.32；最后采用HRM架构达到81.91 [26] - 在MATH上，成绩从35.44依次提高到47.04、48.36和56.16；GSM8K从48.37依次提高到69.75、75.06和84.53 [27] - 效率提升是分层递归架构、任务完成目标和PrefixLM三者共同作用的结果 [27] 模型性能特点与定位 - 模型在MATH、GSM8K、DROP和ARC-Challenge等偏任务执行与推理的基准测试上表现突出；在MMLU这类更依赖广泛知识覆盖的基准测试上，则处于有竞争力但并不领先的位置 [28] - 例如，HRM-Text 1B在MMLU上得分为60.7，低于Qwen3.5 2B的64.5和OLMo3 7B的65.8；但在MATH上，HRM-Text的56.2高于表格中的Qwen3.5 2B、Llama 3.2 3B、Gemma3 4B和OLMo3 7B [29][31] - 由于训练数据和参数规模有限，模型更适合被理解为一个偏重任务执行与推理能力的紧凑模型，而非覆盖广泛知识的通用型产品模型 [32] - 论文据此提出了后续方向：将推理核心和知识存储部分解耦，让紧凑递归模型专注于计算、规划和任务执行，而事实覆盖则交给检索系统、外部知识库或可学习的记忆模块 [32] 技术演进与行业影响 - HRM-Text是Sapient对HRM（分层推理模型）架构在开放域语言环境下的验证，其前身HRM-Symbolic主要面向符号推理任务 [36][37][40] - 递归潜空间推理正获得更广泛关注，例如图灵奖得主Yoshua Bengio参与发布的GRAM研究，沿HRM开创的分层递归推理路线展开，表明HRM正在成为下一代推理型人工智能的重要研究基础 [41][43] - Sapient公司的长期方向是Lean General Intelligence，即寻找更高效、更可及、更具泛化能力的智能系统，而非单纯追逐更大模型 [47] - HRM-Text提供了一个可复现的案例，表明除了扩大模型规模，重新设计计算结构同样可能改变性能、成本与能力之间的关系，这为行业探索“规模扩张”之外的增长轴提供了可能性 [51][52]

分层递归推理

Lean General Intelligence

Lean General Intelligence