文章核心观点 - 大语言模型的研究重点正从参数规模扩张转向参数组织方式的创新,旨在提升记忆存储与访问的效率、可编辑性和系统性能[2] - STEM模型架构通过将Transformer FFN中的动态“算地址”机制替换为静态“查地址”的查表式记忆,实现了记忆容量与每token计算量的解耦,并在多个维度带来显著提升[5][8][13] - 这种简洁、稳定且工程友好的设计思路,为下一代基座模型的演进提供了一条重要路径,表明通过优化参数组织方式而非单纯增加规模,同样能获得显著能力提升[29][30] STEM模型的核心机制与设计 - 核心直觉与设计:STEM的关键洞察在于质疑FFN中地址向量需由输入动态生成的必要性,选择用静态的、按token索引的embedding表直接查表获取向量,取代传统的up-projection密集矩阵乘法[5][8][9] - 结构变化:该设计仅替换了FFN中的up-projection子模块,完整保留了gate与down-projection用于上下文调制与压缩,使模型结构发生了本质变化[11][12][13] STEM模型带来的优势与影响 - 可编辑性提升:由于存在显式的token-参数对应关系,研究者可直接替换特定token的STEM向量来改变模型在相关事实上的输出行为,为知识编辑和模型理解提供了新思路[16][18][19] - 训练稳定性增强:作为一种静态稀疏结构,STEM避免了MoE等动态路由方案中常见的负载倾斜和损失尖峰问题[20] - 记忆空间更高效:使用token索引embedding改变了FFN输入向量的几何分布,使向量间呈现更大的角度散布、更接近正交,有效减少了参数间干扰,在相同或更低计算成本下维持了更多可寻址的记忆槽位[22][23] - 计算与系统效率优化:移除up-projection节省了约 d⋅d_ff 级别的矩阵乘法开销,且大规模embedding表可离载到CPU,通过异步预取与缓存策略访问,降低了FLOPs与IO开销[24] 实验结果与工程落地 - 性能表现:在350M与1B模型规模上,STEM相比稠密基线整体平均性能提升约3–4%,部分知识类任务提升幅度可达9–10%[26][36] - 长上下文优势:在Needle-in-a-Haystack与LongBench等长上下文评测中,STEM的优势随着上下文长度增加而扩大[36] - 工程实现关键:仅替换up-projection是关键,盲目替换gate-projection会破坏上下文调制能力;embedding表可CPU离载,训练时需将梯度回写到对应的优化器状态;可采用部分层替换或混合变体来平衡参数占比与显存压力[36]
ICLR 2026|早于DeepSeek Engram,STEM已重构Transformer「记忆」
机器之心·2026-03-09 10:50