Workflow
Hierarchical Reasoning Model (HRM)
icon
搜索文档
三星 TRM 论文:少即是多,用递归替代深度,挑战 Transformer 范式
36氪· 2025-11-03 20:51
三星SAIL蒙特利尔实验室的研究人员近日发布论文《 Less is More: Recursive Reasoning with Tiny Networks 》,提出一种名为 Tiny Recursive Model (TRM) 的新型递归推理架构。 在架构上,TRM也放弃了自注意力层(仅限 TRM-MLP 变体;TRM-Att 仍含自注意力。)。论文表明,对于小规模固定输入任务,MLP反而能减少过 拟合。另外,当上下文长度较短时,注意力机制反而是一种浪费。TRM 在某些任务(例如 Sudoku、Maze-Hard 等)中, 使用纯 MLP 结构优于 Transformer-based 模型。 这项研究显示,在推理任务上,小网络也能战胜大型语言模型。 TRM仅使用 700万参数、两层神经网络,就在多项高难度任务中超过了 DeepSeek R1、Gemini 2.5 Pro、O3-mini 等模型。 图注: Tiny Recursive Model(TRM)通过不断在"答案 y和"潜在思考变量 z 之间递归更新,实现小参数模型的多轮自我修正推理。 传统大模型依赖链式思维(Chain-of-Thought)生成推 ...
又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同
搜狐财经· 2025-08-10 12:21
模型性能突破 - 2700万参数小模型HRM在ARC-AGI测试中达到40.3%准确率,超越o3-mini-high(34.5%)和Claude 3.7 8K(21.2%) [16] - 仅用1000个训练样本就实现极端数独任务近乎完美准确率,而现有思维链模型准确率为0% [16] - 在30x30迷宫任务中表现稳定,对比1.75亿参数Transformer模型准确率不足20% [18] 技术创新 - 采用仿脑设计的双层循环模块:高层模块负责慢节奏抽象规划,低层模块处理快节奏细节计算 [4][5] - 分层收敛机制避免过早收敛问题,通过高阶模块更新设定新目标 [9][11] - 近似梯度技术实现内存需求恒定且计算高效,仅需根据最终状态反推优化方向 [12] - 深度监督机制引入阶段性测试,及时纠正偏差 [13][14] - 自适应计算时间动态分配思考资源,简单任务快速响应,复杂任务延长计算 [14] 架构优势 - 克服标准Transformer的计算局限,能有效利用计算深度提升性能 [7] - 在需要大量树搜索和回溯的任务中,增加深度可提升准确率而非出现性能饱和 [7] - 对过拟合具有极强抵抗力,通过高低模块设计避免过早收敛 [18] 开发者背景 - 开发者王冠为00后清华校友,8岁开始编程,GitHub开源项目OpenChat独立开发者 [20][22] - 多次拒绝xAI等一线机构邀请,目标为颠覆Transformer架构 [22] - 2024年创办Sapient Intelligence并融资数千万美元,致力于开发全新大模型架构 [22]