递归推理架构
搜索文档
三星 TRM 论文:少即是多,用递归替代深度,挑战 Transformer 范式
36氪· 2025-11-03 20:51
三星SAIL蒙特利尔实验室的研究人员近日发布论文《 Less is More: Recursive Reasoning with Tiny Networks 》,提出一种名为 Tiny Recursive Model (TRM) 的新型递归推理架构。 在架构上,TRM也放弃了自注意力层(仅限 TRM-MLP 变体;TRM-Att 仍含自注意力。)。论文表明,对于小规模固定输入任务,MLP反而能减少过 拟合。另外,当上下文长度较短时,注意力机制反而是一种浪费。TRM 在某些任务(例如 Sudoku、Maze-Hard 等)中, 使用纯 MLP 结构优于 Transformer-based 模型。 这项研究显示,在推理任务上,小网络也能战胜大型语言模型。 TRM仅使用 700万参数、两层神经网络,就在多项高难度任务中超过了 DeepSeek R1、Gemini 2.5 Pro、O3-mini 等模型。 图注: Tiny Recursive Model(TRM)通过不断在"答案 y和"潜在思考变量 z 之间递归更新,实现小参数模型的多轮自我修正推理。 传统大模型依赖链式思维(Chain-of-Thought)生成推 ...