Workflow
分层递归推理
icon
搜索文档
新架构模型HRM-Text创新纪录!1B参数、1000美元,图灵奖得主都亲自下场了
机器之心· 2026-06-09 12:09
HRM-Text模型核心创新 - Sapient Intelligence发布HRM-Text模型,这是一个约10亿参数的模型,在MATH上得分为56.2,在GSM8K上得分为84.5,在ARC-Challenge上得分为81.9 [1] - 该模型从零开始预训练,仅使用约400亿个唯一token(考虑重复采样后总训练量约600亿token),其训练量约为Llama 3.2 3B(9万亿token)的1/225,约为Qwen3.5 2B(36万亿token)的1/900 [3] - 训练成本极低,仅约1500美元,使用16块H100 GPU运行不到两天 [1] - 模型的核心目标是挑战“规模扩张”之外的路径,探索在有限数据和算力下,通过架构与训练目标的共同设计来提高计算效率,论文标题直接点明方向为“Efficient Pretraining Beyond Scaling” [4][5] 模型架构创新:分层递归计算 - 模型引入了高层模块H和低层模块L的双时间尺度递归结构,让有限参数在输出前进行多轮内部计算,以提高有效计算深度 [9][12] - 标准Transformer是线性传递,而HRM-Text是让两组模块在同一个潜空间中反复迭代同一份内部状态,H和L属于同一个网络,并非独立模型 [12] - 每次前向传播会执行两个高层周期,每个周期先完成三次低层模块更新,再完成一次高层模块更新,因此在预测一个token之前,模型会完成8次递归更新(6次低层更新和2次高层更新) [13][14] - 这种递归架构并非简单增加参数,而是增加了每个token输出前的串行计算量,因此参数规模、训练成本和实际推理效率需要分别讨论 [16] - 为了稳定深层递归训练,模型引入了MagicNorm来同时兼顾前向和反向传播的稳定性,并引入了warmup deep credit assignment来逐步控制梯度回传的深度范围 [18][19] - 分析表明,HRM-Text的深层计算能保持明显的表征变化,说明递归步骤在持续修改内部状态并提供增量信息,有效深度高于标准Transformer [20][22] 训练目标创新:集中训练信号 - 在预训练目标上,HRM-Text省略了大规模原始文本预训练,直接使用“指令-回答”数据对从零开始训练,并且只对回答部分计算token级损失,将训练信号更集中地用于任务理解和答案生成 [9][23] - 与“仅回答目标”配套的是PrefixLM注意力掩码,允许指令部分的token彼此双向可见,进入回答部分后再恢复标准的因果生成方式,这改善了模型整合指令上下文的方式 [24][25] - 消融实验证明了各项改进的贡献:以ARC-Challenge为例,1B Transformer使用全序列预测和causal mask得分为51.91;仅预测回答提高到62.88;加入PrefixLM后提高到74.32;最后采用HRM架构达到81.91 [26] - 在MATH上,成绩从35.44依次提高到47.04、48.36和56.16;GSM8K从48.37依次提高到69.75、75.06和84.53 [27] - 效率提升是分层递归架构、任务完成目标和PrefixLM三者共同作用的结果 [27] 模型性能特点与定位 - 模型在MATH、GSM8K、DROP和ARC-Challenge等偏任务执行与推理的基准测试上表现突出;在MMLU这类更依赖广泛知识覆盖的基准测试上,则处于有竞争力但并不领先的位置 [28] - 例如,HRM-Text 1B在MMLU上得分为60.7,低于Qwen3.5 2B的64.5和OLMo3 7B的65.8;但在MATH上,HRM-Text的56.2高于表格中的Qwen3.5 2B、Llama 3.2 3B、Gemma3 4B和OLMo3 7B [29][31] - 由于训练数据和参数规模有限,模型更适合被理解为一个偏重任务执行与推理能力的紧凑模型,而非覆盖广泛知识的通用型产品模型 [32] - 论文据此提出了后续方向:将推理核心和知识存储部分解耦,让紧凑递归模型专注于计算、规划和任务执行,而事实覆盖则交给检索系统、外部知识库或可学习的记忆模块 [32] 技术演进与行业影响 - HRM-Text是Sapient对HRM(分层推理模型)架构在开放域语言环境下的验证,其前身HRM-Symbolic主要面向符号推理任务 [36][37][40] - 递归潜空间推理正获得更广泛关注,例如图灵奖得主Yoshua Bengio参与发布的GRAM研究,沿HRM开创的分层递归推理路线展开,表明HRM正在成为下一代推理型人工智能的重要研究基础 [41][43] - Sapient公司的长期方向是Lean General Intelligence,即寻找更高效、更可及、更具泛化能力的智能系统,而非单纯追逐更大模型 [47] - HRM-Text提供了一个可复现的案例,表明除了扩大模型规模,重新设计计算结构同样可能改变性能、成本与能力之间的关系,这为行业探索“规模扩张”之外的增长轴提供了可能性 [51][52]