Workflow
Adaptive Computation
icon
搜索文档
「有望成为Transformer杀手」,谷歌DeepMind新架构MoR实现两倍推理速度
机器之心· 2025-07-17 05:03
核心观点 - 谷歌发布名为Mixture-of-Recursions(MoR)的新LLM模型架构,该架构在递归Transformer基础上进化,被认为有潜力成为Transformer的杀手[1] - MoR框架通过统一方法同时实现参数共享和自适应计算,创建协同架构,实现"无需承担大模型成本的大模型质量"[2] - MoR通过端到端训练轻量级路由为每个token分配专属递归深度,根据token所需"思考"深度决定共享参数模块重复应用次数,精准分配计算资源[4] - MoR在统一架构中同时实现三项优化:参数共享、计算路由和递归级缓存[6] 架构设计 - MoR基于递归Transformer,通过跨多个层共享权重实现参数效率[12] - 采用中周期参数共享策略,在参数效率和模型表达能力之间提供最佳平衡[14] - 核心创新是动态路由系统,根据单个token计算需求分配不同递归深度[15] - 引入两种KV缓存策略:递归式KV缓存和递归KV共享,显著降低内存访问开销[16] - 采用辅助路由、辅助损失、均衡损失和路由偏置等技术优化路由机制[17] 性能表现 - 在等效训练预算(16.5×10¹⁸ FLOPs)下,MoR模型参数量减少近50%仍取得更优性能[19] - 少样本学习平均准确率达43.1%,超越基线模型的42.3%[19] - 在固定训练token数量(20B)下,MoR使用比基线少25%的FLOPs仍实现更低验证损失和更高准确率[21] - 训练时间减少19%,峰值内存使用量下降25%[22] - 在最大批量配置下吞吐量提升可达2.06倍[30] 扩展性与效率 - MoR在所有模型规模和计算预算下稳定优于递归基线模型[27] - 参数量超过360M时,MoR在低至中等预算下常常超越原始Transformer[27] - 结果表明MoR是标准Transformer可扩展且高效的替代方案,适合预训练及大规模部署[28] - 通过连续深度批处理和提前退出机制显著提升推理吞吐能力[31] 潜在影响 - MoR为高效LLM架构建立新范例,解决语言建模中的基本可扩展性挑战[37] - 为开发更具认知启发性的AI系统提供基础,与语言模型中新兴的潜在推理和内部思考研究相一致[38] - 该方法提高推理速度并降低KV缓存,但能否被称为"Transformer杀手"仍存质疑[39]