Workflow
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
量子位·2025-07-17 17:03

鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 超越 Transformer ,谷歌推出全新底层架构—— Mixture-of-Recursions (MoR) ,注意不是MoE,它能推理速度提高2倍,而KV内存直接减半! 而且All in One, 首次 在单一框架中实现,用同一组参数处理不同任务的同时,进行动态分配计算资源。 就像给LLM开了个双层增强buff,模型性能和效率全都要。 谷歌DeepMind联合KAIST AI、Mila人团队通过 统一参数共享 、 自适应递归深度 和 高效KV缓存 ,在保持大模型性能的同时降低计算和内 存成本,形成新的效率最优解。 不少网友甚至将它形容为 Transformer Killer 。 更有甚者表示,该架构的出现或许能代表,潜在空间推理也许将会成为下一个LLM突破所在。 Transformer的出现虽然带来了优秀的少样本泛化和推理能力,但随之而来庞大的计算和内存需求还是让训练和部署成为难题。 目前相关优化方法主要是参数共享和自适应计算,但往往只能二选一,无法同时兼顾。 于是研究人员提出了递归混合模型 MoR ,可以在单一递归Transformer中同时融合两 ...