Workflow
分层推理模型(HRM)
icon
搜索文档
700万参数击败DeepSeek R1等,三星一人独作爆火,用递归颠覆大模型推理
机器之心· 2025-10-09 12:43
模型架构创新 - 微型递归模型(TRM)采用递归推理架构,通过“起草-思考-修订”的循环过程(最多16次)来提升答案质量,其核心思想是“少即是多”[4][6][7][8][9] - TRM重新定义了完整的递归过程,在训练中先运行T-1次无梯度递归来改进中间表示,再进行一次带反向传播的递归,从而完全消除了对不动点假设和隐函数定理一步梯度近似的依赖[11] - 该模型采用单网络设计,而非HRM的双网络架构,减少了参数量;同时发现减少网络层数(最优为2层)并增加递归次数能提升泛化性能,避免过拟合[12][13][16][17] 技术参数与效率 - TRM模型规模极小,仅包含700万个参数,比HRM的2700万参数小4倍,比Qwen3 0.6B模型小约22倍,但性能卓越[1][4] - 在架构选择上,TRM探索了无注意力设计,用作用于序列维度的多层感知机(MLP)替代自注意力机制,在短上下文任务中更高效[18][19][20] - 模型训练仅使用1000个训练样本,便在复杂推理任务上取得卓越性能,显示出极高的数据效率[1] 性能表现对比 - 在Sudoku-Extreme测试中,不带自注意力的TRM-MLP模型准确率最高达87.4%,显著高于HRM的55.0%和直接预测法的0.0%[23][25] - 在Maze-Hard任务上,带自注意力的TRM-Att模型准确率达85.3%,远超HRM的74.5%;在ARC-AGI-1和ARC-AGI-2上,TRM-Att准确率分别为44.6%和7.8%,也优于HRM的40.3%和5.0%[25][26][28][29] - 与参数规模大数千倍的尖端大模型(如Deepseek R1的671B参数、Grok-4-thinking的1.7T参数)相比,仅700万参数的TRM在部分推理基准测试中甚至能够超越这些模型[4][25][26]
只用2700万参数,这个推理模型超越了DeepSeek和Claude
机器之心· 2025-06-30 18:23
大模型架构变革 - 当前大语言模型(LLM)采用思维链(CoT)技术存在任务分解复杂、数据需求大、高延迟等问题 [2] - 分层推理模型(HRM)通过循环架构实现高计算深度,仅需2700万参数和1000个训练样本即可在复杂推理任务中表现卓越 [3][4] - HRM无需预训练或CoT数据,在数独、迷宫路径查找等任务中达到近乎完美性能,并在ARC-AGI基准上超越更大模型 [5][7] HRM设计原理 - 核心灵感源于大脑分层处理和多时间尺度机制:高级模块负责抽象规划(慢速),低级模块处理细节计算(快速) [12][13] - 采用四个可学习组件(输入网络、高低级循环模块、输出网络)实现层级收敛性,H模块稳定收敛,L模块周期性重置 [14][15][17] - 通过一步梯度近似法(O(1)内存)和深度监督机制优化训练效率,避免传统BPTT算法的深层信用分配难题 [19][20][23] 性能与实验验证 - 在ARC-AGI、数独、迷宫任务中,HRM表现出类似深度优先搜索和渐进优化的底层推理算法 [31] - 训练后高层模块与低层模块自然涌现维度层级分化,而非架构固有特性 [33][34] - 具备图灵完备性,可模拟任何图灵机,通过自适应计算时间(ACT)动态调整资源分配 [35][36][27] 技术对比优势 - 相比CoT模型,HRM在符号树搜索任务(如Sudoku-Extreme)中准确率接近100%,而标准Transformer增加深度无效 [10] - 强化学习(RL)需依赖CoT能力且数据效率低,HRM通过密集梯度反馈实现连续空间运算,生物合理性更高 [37][39] - 推理阶段仅需调整计算限制参数Mmax即可扩展性能,无需重新训练 [28]