微型递归模型(TRM)
搜索文档
700万参数击败DeepSeek R1等,三星一人独作爆火,用递归颠覆大模型推理
机器之心· 2025-10-09 12:43
模型架构创新 - 微型递归模型(TRM)采用递归推理架构,通过“起草-思考-修订”的循环过程(最多16次)来提升答案质量,其核心思想是“少即是多”[4][6][7][8][9] - TRM重新定义了完整的递归过程,在训练中先运行T-1次无梯度递归来改进中间表示,再进行一次带反向传播的递归,从而完全消除了对不动点假设和隐函数定理一步梯度近似的依赖[11] - 该模型采用单网络设计,而非HRM的双网络架构,减少了参数量;同时发现减少网络层数(最优为2层)并增加递归次数能提升泛化性能,避免过拟合[12][13][16][17] 技术参数与效率 - TRM模型规模极小,仅包含700万个参数,比HRM的2700万参数小4倍,比Qwen3 0.6B模型小约22倍,但性能卓越[1][4] - 在架构选择上,TRM探索了无注意力设计,用作用于序列维度的多层感知机(MLP)替代自注意力机制,在短上下文任务中更高效[18][19][20] - 模型训练仅使用1000个训练样本,便在复杂推理任务上取得卓越性能,显示出极高的数据效率[1] 性能表现对比 - 在Sudoku-Extreme测试中,不带自注意力的TRM-MLP模型准确率最高达87.4%,显著高于HRM的55.0%和直接预测法的0.0%[23][25] - 在Maze-Hard任务上,带自注意力的TRM-Att模型准确率达85.3%,远超HRM的74.5%;在ARC-AGI-1和ARC-AGI-2上,TRM-Att准确率分别为44.6%和7.8%,也优于HRM的40.3%和5.0%[25][26][28][29] - 与参数规模大数千倍的尖端大模型(如Deepseek R1的671B参数、Grok-4-thinking的1.7T参数)相比,仅700万参数的TRM在部分推理基准测试中甚至能够超越这些模型[4][25][26]