Adaptive Computation

搜索文档

「有望成为Transformer杀手」，谷歌DeepMind新架构MoR实现两倍推理速度

机器之心· 2025-07-17 05:03

核心观点 - 谷歌发布名为Mixture-of-Recursions（MoR）的新LLM模型架构，该架构在递归Transformer基础上进化，被认为有潜力成为Transformer的杀手[1] - MoR框架通过统一方法同时实现参数共享和自适应计算，创建协同架构，实现"无需承担大模型成本的大模型质量"[2] - MoR通过端到端训练轻量级路由为每个token分配专属递归深度，根据token所需"思考"深度决定共享参数模块重复应用次数，精准分配计算资源[4] - MoR在统一架构中同时实现三项优化：参数共享、计算路由和递归级缓存[6] 架构设计 - MoR基于递归Transformer，通过跨多个层共享权重实现参数效率[12] - 采用中周期参数共享策略，在参数效率和模型表达能力之间提供最佳平衡[14] - 核心创新是动态路由系统，根据单个token计算需求分配不同递归深度[15] - 引入两种KV缓存策略：递归式KV缓存和递归KV共享，显著降低内存访问开销[16] - 采用辅助路由、辅助损失、均衡损失和路由偏置等技术优化路由机制[17] 性能表现 - 在等效训练预算（16.5×10¹⁸ FLOPs）下，MoR模型参数量减少近50%仍取得更优性能[19] - 少样本学习平均准确率达43.1%，超越基线模型的42.3%[19] - 在固定训练token数量（20B）下，MoR使用比基线少25%的FLOPs仍实现更低验证损失和更高准确率[21] - 训练时间减少19%，峰值内存使用量下降25%[22] - 在最大批量配置下吞吐量提升可达2.06倍[30] 扩展性与效率 - MoR在所有模型规模和计算预算下稳定优于递归基线模型[27] - 参数量超过360M时，MoR在低至中等预算下常常超越原始Transformer[27] - 结果表明MoR是标准Transformer可扩展且高效的替代方案，适合预训练及大规模部署[28] - 通过连续深度批处理和提前退出机制显著提升推理吞吐能力[31] 潜在影响 - MoR为高效LLM架构建立新范例，解决语言建模中的基本可扩展性挑战[37] - 为开发更具认知启发性的AI系统提供基础，与语言模型中新兴的潜在推理和内部思考研究相一致[38] - 该方法提高推理速度并降低KV缓存，但能否被称为"Transformer杀手"仍存质疑[39]

Parameter Sharing

Software

Mixture-of-Recursions (MoR)

Mixture-of-Recursions (MoR)

Transformer