ICLR 2026｜早于DeepSeek Engram，STEM已重构Transformer「记忆」

文章核心观点 - 大语言模型的研究重点正从参数规模扩张转向参数组织方式的创新，旨在提升记忆存储与访问的效率、可编辑性和系统性能[2] - STEM模型架构通过将Transformer FFN中的动态“算地址”机制替换为静态“查地址”的查表式记忆，实现了记忆容量与每token计算量的解耦，并在多个维度带来显著提升[5][8][13] - 这种简洁、稳定且工程友好的设计思路，为下一代基座模型的演进提供了一条重要路径，表明通过优化参数组织方式而非单纯增加规模，同样能获得显著能力提升[29][30] STEM模型的核心机制与设计 - 核心直觉与设计：STEM的关键洞察在于质疑FFN中地址向量需由输入动态生成的必要性，选择用静态的、按token索引的embedding表直接查表获取向量，取代传统的up-projection密集矩阵乘法[5][8][9] - 结构变化：该设计仅替换了FFN中的up-projection子模块，完整保留了gate与down-projection用于上下文调制与压缩，使模型结构发生了本质变化[11][12][13] STEM模型带来的优势与影响 - 可编辑性提升：由于存在显式的token-参数对应关系，研究者可直接替换特定token的STEM向量来改变模型在相关事实上的输出行为，为知识编辑和模型理解提供了新思路[16][18][19] - 训练稳定性增强：作为一种静态稀疏结构，STEM避免了MoE等动态路由方案中常见的负载倾斜和损失尖峰问题[20] - 记忆空间更高效：使用token索引embedding改变了FFN输入向量的几何分布，使向量间呈现更大的角度散布、更接近正交，有效减少了参数间干扰，在相同或更低计算成本下维持了更多可寻址的记忆槽位[22][23] - 计算与系统效率优化：移除up-projection节省了约 d⋅d_ff 级别的矩阵乘法开销，且大规模embedding表可离载到CPU，通过异步预取与缓存策略访问，降低了FLOPs与IO开销[24] 实验结果与工程落地 - 性能表现：在350M与1B模型规模上，STEM相比稠密基线整体平均性能提升约3–4%，部分知识类任务提升幅度可达9–10%[26][36] - 长上下文优势：在Needle-in-a-Haystack与LongBench等长上下文评测中，STEM的优势随着上下文长度增加而扩大[36] - 工程实现关键：仅替换up-projection是关键，盲目替换gate-projection会破坏上下文调制能力；embedding表可CPU离载，训练时需将梯度回写到对应的优化器状态；可采用部分层替换或混合变体来平衡参数占比与显存压力[36]