自适应计算

搜索文档
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
量子位· 2025-07-17 17:03
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 超越 Transformer ,谷歌推出全新底层架构—— Mixture-of-Recursions (MoR) ,注意不是MoE,它能推理速度提高2倍,而KV内存直接减半! 而且All in One, 首次 在单一框架中实现,用同一组参数处理不同任务的同时,进行动态分配计算资源。 就像给LLM开了个双层增强buff,模型性能和效率全都要。 谷歌DeepMind联合KAIST AI、Mila人团队通过 统一参数共享 、 自适应递归深度 和 高效KV缓存 ,在保持大模型性能的同时降低计算和内 存成本,形成新的效率最优解。 不少网友甚至将它形容为 Transformer Killer 。 更有甚者表示,该架构的出现或许能代表,潜在空间推理也许将会成为下一个LLM突破所在。 Transformer的出现虽然带来了优秀的少样本泛化和推理能力,但随之而来庞大的计算和内存需求还是让训练和部署成为难题。 目前相关优化方法主要是参数共享和自适应计算,但往往只能二选一,无法同时兼顾。 于是研究人员提出了递归混合模型 MoR ,可以在单一递归Transformer中同时融合两 ...
首篇潜空间推理综述!模型思考不必依赖Token,带宽暴增2700+倍
量子位· 2025-07-16 09:49
作者表示,这一框架还将有助于未来的路线探索,例如研究通过扩散模型进行无限深度推理等高级范式。 这篇综述共同一作有四人,其中字节SEED实习生、加州大学圣克鲁兹分校博士生 Ruijie Zhu 同时是通讯作者。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 大模型在潜空间中推理, 带宽能达到普通 (显式) 思维链 (CoT) 的2700多倍 ? 史上首篇潜空间推理综述,对这种新兴的推理范式进行了全面总结。 这篇综述当中,作者分析了循环、递归、连续思维等潜空间推理的形式,并将这些方法总结成了一个框架。 这个统一框架不是强行整合,而是 建立在机械可解释性的基础之上,能够与模型的内部运作进行联系 。 什么是潜空间推理? 潜空间推理是一个新兴领域,其思想最早可以追溯到ICLR 2019上阿姆斯特丹大学学者 Mostafa Dehghani 与谷歌大脑和DeepMind (后两 者当时处于独立状态) 共同发表的 《Universal Transformers》 。 这篇文章引入了自适应计算时间(ACT)机制,首次实现了层级间的动态递归,为后续的潜空间推理研究奠定了基础。 | Mostafa Dehghani*† ...
Anthropic专家揭秘强化学习突破、算力竞赛与AGI之路 | Jinqiu Select
锦秋集· 2025-05-25 12:19
"2026年,AI将能完成初级工程师一天的工作量。"这是Anthropic强化学习专家Sholto Douglas的理性预测。 回望过去2年的发展轨迹,我们能够清晰地看到一条加速上升的曲线:从2023年3月GPT-4奠定基础,到2024年 6月Claude 3.5 Sonnet在编码评估中解决64%的问题,再到Cursor在12个月内实现从100万到1亿美元年收入的惊 人增长,每一个节点都标志着AI从"代码助手"向"编程伙伴"的深刻转变。 最新的突破出现在2024年9月。OpenAI的o1模型通过强化学习,真正开启了AI推理的新纪元——它不仅在编码 复杂性和准确性上实现了显著跃升,更重要的是,这种能力随着模型规模的扩大呈现出持续增强的趋势。 编程领域之所以成为AI能力跃升的先锋阵地,源于其独特的优势:即时的反馈循环、明确的成功标准、以及 丰富的高质量训练数据。 这种"18-24个月能力倍增"的模式,正将我们推向一个临界点。Douglas的2026年预测,实际上是对这一发展轨 迹的理性延伸。 Anthropic的强化学习规模化专家Sholto Douglas与机械可解释性团队的Trenton Bricken接受 ...