Workflow
Adaptive Computation
icon
搜索文档
「有望成为Transformer杀手」,谷歌DeepMind新架构MoR实现两倍推理速度
机器之心· 2025-07-17 13:03
机器之心报道 编辑:冷猫 大型语言模型已展现出卓越的能力,但其部署仍面临巨大的计算与内存开销所带来的挑战。随着模型参数规模扩大至数千亿级别,训练和推理的成本变得高昂, 阻碍了其在许多实际应用中的推广与落地。 这促使研究者们围绕两个主要方向积极探索高效化技术:一是通过权重共享提升 参 数效 率 ,二是根据输入复杂度动态分配计算资源,实现 自适应计算 。 而一切的基础则是 Transformer 架构。这次谷歌又一次坐不住了,在递归 Transformer 的基础上再次进化,发布了名为 Mixture-of-Recursions (MoR)的新 LLM 模 型架构,有学者认为这个新架构 「有潜力成为 Transformer 的杀手」 。 MoR 框架引入了一种统一方法,同时实现参数共享和自适应计算。与以往孤立处理参数减少或自适应计算的方法不同,MoR 将动态 token 级路由集成到参数高效 的递归 Transformer 中,创建了一种协同架构,实现了「无需承担大模型成本的大模型质量」。 在本研究中,作者提出了 Mixt ure- of-Recursions(MoR) ,一个统一框架,旨在充分发挥递归 Tran ...