Workflow
HOPE架构
icon
搜索文档
Transformer已死?DeepMind正在押注另一条AGI路线
36氪· 2026-01-09 10:42
嵌套学习(Nested Learning)与HOPE架构的核心创新 - 借鉴人类联想记忆机制,提出嵌套学习框架,旨在解决AI长期存在的“灾难性遗忘”问题,使AI能在运行中构建抽象结构,实现真正的持续学习 [1] - 嵌套学习的核心是构建一个由更新频率不同的模块组成的嵌套系统,其中包含快模块(如用于上下文学习的快速自更新器)和慢模块(如多时间尺度记忆),以实现不同时间尺度上的学习 [27] - 该框架将优化器与架构视为互为上下文、协同进化的组件,优化器本身被重新定义为一种关键的“记忆模块” [22] - 基于此框架,谷歌DeepMind团队提出了具体的HOPE架构,该架构结合了自我修改与连续记忆系统,专为长上下文处理和持续学习设计 [31] 对Transformer架构局限性的突破 - 指出Transformer架构存在适应性弱、缺乏持续学习能力等关键局限,特别是其“短期记忆”(当前上下文)与“长期记忆”(预训练知识)之间缺乏自然的知识转移通道,类比为医学上的“顺行性遗忘症” [13][14][15][18] - 嵌套学习及HOPE架构旨在超越Transformer,通过建立知识转移通道,使模型能够将新经历自然沉淀为可复用的长期知识,而无需反复进行昂贵的再训练和微调 [18][23] 技术框架:MIRAS与联想记忆 - 提出一个名为MIRAS的通用框架,用于系统化设计AI模型中的记忆模块,其核心思想是将几乎所有注意力机制、本地记忆结构及优化器都视为“联想记忆”的特例 [19] - 联想记忆的本质是键值对映射,其映射关系是通过学习而非预先写死的,注意力机制即为此系统的一种表现 [18] - 基于MIRAS框架,设计可学习的嵌套式记忆系统需做出四大设计决策:记忆架构、注意力偏置/目标函数、保留机制和学习规则 [20] 嵌套学习中的知识转移机制 - 嵌套学习框架定义了多种关键的知识在层级间传递的方式,包括:直接条件传递、非参数化条件传递、通过反向传播传递、初始状态传递(元学习初始化)以及权重生成(超网络) [37] - 这些机制构成了嵌套学习架构中“信息流动”的基础,确保了从快模块到慢模块、从短期到长期的知识有效沉淀 [30] HOPE架构的性能表现 - 在“大海捞针”实验中,HOPE在多种任务设置下表现优异,例如在S-NIAH-1(通行密钥检索)任务中,上下文长度4K、8K、16K下准确率均达100%,与基准Transformer模型(4K:88.6, 8K:76.4, 16K:79.8)相比有显著提升 [39] - 在持续翻译新语言任务中,HOPE在持续学习设置下(蓝点)相比仅学习单一语言(红点)展现出明显优势 [41] - 在BABILong长上下文基准测试中,HOPE的准确率表现优于Llama3 + RAG、GPT-4、GPT-4o-mini及Titans等对比模型 [42] - 在语言建模和常识推理任务中,参数量1.3B的HOPE模型在平均准确率上达到58.04,优于同规模的Transformer++模型(53.38)及Titans模型(56.82) [45] - 在合成基准MAD上,HOPE在回忆、记忆、压缩和复制任务中取得了最佳结果,压缩任务得分51.2,优于Transformer的49.4 [44] - 消融实验表明,HOPE架构中的连续记忆系统、动态梯度下降等组件对其性能提升均有重要贡献 [46] 行业影响与AGI前景 - 嵌套学习被DeepMind联合创始人Shane Legg等业界领袖高度评价,被认为是继2017年Transformer论文之后最重要的进展,可能开启真正的通用人工智能时代 [1][2][3] - Shane Legg预测,到2028年有50%的把握实现初级通用人工智能,而持续学习可能是实现AGI所需的关键突破之一 [7][9][10] - 该研究由谷歌研究院主导,主要作者包括康奈尔大学博士生兼谷歌研究实习生Ali Behrouz,巩固了谷歌在AI基础研究领域的领先地位和塑造未来技术格局的有利位置 [3][11] - 行业观点认为,嵌套学习不只是一个新架构,更是一种重新理解深度学习的范式,其成功应用可能使AI从被动训练转向主动进化 [1][47]
为什么这篇谷歌论文被称为「Attention is all you need」V2
量子位· 2025-12-21 13:45
文章核心观点 - 谷歌提出名为“嵌套学习”的新研究范式,指出当前大型语言模型存在“数字失忆症”的根本问题,并认为解决之道在于引入“频率”这一被忽略的维度,而非单纯增加模型深度和参数量[1][5] - 研究颠覆性地揭示了主流优化器本身就是一个持续进行“记忆”的关联记忆系统,这为重新审视整个学习架构提供了支点[5][6] - 基于新范式构建的HOPE架构,通过一个连续记忆光谱系统,模仿人脑多频率记忆机制,展现了解决持续学习问题的潜力,可能引领一场AI设计逻辑的范式转移[14][16][18] 当前AI模型的局限与问题 - 当前所有大型语言模型普遍存在“数字失忆症”,即无法记住对话中刚教授的新知识,快速遗忘[2][3] - 过去十年,行业主要遵循“规模即智能”的黄金定律,通过堆叠Transformer层和追逐万亿参数来试图解决记忆问题,但此方向存在明显问题[3] - 仅提高算法复杂度和模型规模,可能不会使快速适应新任务、持续学习及泛化等能力显著提升,且训练可能收敛到次优解[4] - 当前大模型的工作频率只有两种极端:快速响应但转瞬即逝的对话缓存,以及预训练完成后便冻结的长期知识,严重缺失中间频谱的记忆通道,导致新知识无处安放[11][12] “嵌套学习”新范式 - 该研究被誉为“Attention is All You Need”V2,其核心是认为真正有效的智能学习需要两个正交维度:深度(模型层数与容量)和频率(模型内部组件自我更新的节奏与速度)[1][5][9][10] - 研究指出,优化器不仅是指引参数更新的引擎,其本身就是一个在不同时间尺度上并行运行、持续压缩存储梯度变化模式的关联记忆系统[5][6] - 从优化器到注意力机制再到整个神经网络,可以被统一重新审视为在不同速度、不同抽象层级上嵌套运行的“学习-记忆”模块,而现有的深度学习体系只是这个更宏大范式的扁平化投影[6][7] HOPE架构与连续记忆系统 - 基于“嵌套学习”范式,研究团队构建了名为HOPE的新型架构,其核心创新是一个连续记忆系统[14] - 该系统由一系列像光谱一样排列、以不同预设频率更新的MLP模块组成,信息输入后会在不同节奏的记忆模块间自动流动与分配[14] - 高频模块类似“工作记忆”,快速捕捉即时细节与上下文;中频模块类似“近期记忆”,负责提炼归纳一段时间内的模式;低频模块类似“长期记忆”,缓慢稳定地将最重要知识沉淀为固有能力[14][15][16] - 此过程高度模仿了神经科学中信息从海马体向新皮层转移巩固的机制,在初步实验中已在标准语言建模和常识推理任务上展现强大竞争力,并显露出解决持续学习问题的巨大潜力[16][17] 研究的意义与影响 - “嵌套学习”的深远意义在于提供了一套全新的AI设计逻辑和思考框架,其突破不一定依赖于发明更复杂的“神经元积木”,而在于设计能激发潜能的框架[18] - 如同2017年“注意力”机制统一了序列建模的视野,“嵌套学习”正试图为学习过程本身构建一个统一、可解释的“白箱”模型[18] - 该研究启示,人工智能的未来不仅需要更深的网络,更需要一个能够持续学习和演化的系统,而非一个静止的、被凝固在训练完成一刻的“知识琥珀”[18]
通信行业周观点:谷歌嵌套学习架构革新,Claude Opus4.5高性价比-20251202
长江证券· 2025-12-02 17:42
行业投资评级 - 投资评级为“看好”,并予以“维持” [9] 核心观点 - 谷歌提出的嵌套学习理论与HOPE架构,通过重塑长期记忆与推理效率,突破了Transformer在极长序列下的记忆瓶颈,有望大幅降低训练与推理成本 [2][5] - Anthropic发布的Claude Opus 4.5模型以SOTA性能夺得软件工程榜首,其定价策略极具攻势,并实现了应用端的深度生态集成 [2][6] - 人工智能领域的架构升级与高端模型迭代形成共振,共同推动算力产业链景气度持续上行 [2][7] 板块行情表现 - 2025年第48周,通信板块上涨8.71%,在长江一级行业中排名第1位 [2][4] - 2025年年初以来,通信板块累计上涨64.42%,在长江一级行业中同样排名第1位 [2][4] - 在市值80亿元以上的通信公司中,本周涨幅前三为光库科技(+39.2%)、通宇通讯(+39.1%)、太辰光(+22.3%);跌幅前三为和而泰(-4.2%)、宝信软件(-3.0%)、华测导航(-2.7%) [4] 技术革新分析 - 谷歌HOPE架构将模型拆分为不同更新频率的模块,高频模块负责即时推理与短期记忆,低频模块承担知识沉淀与长期记忆,解决了传统Transformer在极长序列下注意力分散的问题 [5] - 在同等参数规模下,HOPE架构展现出最低的困惑度和最高的常识推理准确率,并具备卓越的内存管理能力 [5] - Claude Opus 4.5支持200k上下文窗口与64k最长输出,在真实世界软件工程测试中以80.9%的成绩领先于GPT-5.1Codex Max(77.9%)和Gemini 3 Pro(76.2%) [6] - Claude Opus 4.5的输入价格由每百万token 15美元下调至5美元(降幅67%),输出价格由75美元下调至25美元(降幅67%),同时引入新参数使实际Token消耗较Sonnet 4.5减少48%-76% [6] 投资建议与重点公司 - 报告推荐了七大细分方向的标的,包括运营商、光模块、液冷、空芯光纤、国产算力、AI应用和卫星应用 [7] - 重点公司包括中国移动(预测2025年归母净利润1,452.28亿元,PE 16.0)、中际旭创(预测2025年归母净利润104.00亿元,PE 55.0)、新易盛(预测2025年归母净利润87.63亿元,PE 39.5)等 [14] 行业数据与趋势 - 海外大模型Token调用量在2025年11月24日至11月30日期间约为7.33T,环比增长16.9% [19] - 在模型调用份额中,Grok 4.1 Fast (free)占比40.5%,Claude Sonnet 4.5占比5.2% [19]
LLM 语境下,「持续学习」是否是 「记忆」 问题的最优解?
机器之心· 2025-11-16 09:30
LLM语境下持续学习与记忆问题 - 谷歌提出嵌套学习范式将模型视为一系列嵌套问题堆叠旨在学习新技能同时规避灾难性遗忘问题[6] - 嵌套学习核心论点在于机器学习模型由多个相互关联层次分明优化子问题组成将模型优化器与记忆统一看作多级并行带独立上下文流优化问题[6] - 基于嵌套学习原理研究者设计HOPE架构在语言建模长上下文推理持续学习与知识整合任务上较Transformer++等基线模型表现出更低困惑度与更高准确率[7] - AI社区存在争议认为嵌套学习类似已有技巧叠加如2020年ModNet和2024年ACh和NA框架等多尺度持续学习并非全新概念[8] - 持续学习核心挑战是解决灾难性遗忘即智能系统学习新任务时避免覆盖旧任务知识LLM时代表现为模型降智如领域SFT训练导致通用基准测试性能下降[8] - 当前LLM研究焦点偏向通过改善记忆力使智能体保留情景经验语义知识和程序技能设想跨持久智能记忆层包含Model Weights层KV Cache层和Context层[8] 从行为数据到AI记忆的路线 - 产品方强调更懂你资本强调难以复制引发AI产品护城河是否真实存在讨论不同产品在记什么记多久上押注不同方向[1] - 医疗对话记忆能否作为知识库提升诊疗质量探讨软件被动记录无法覆盖全部生活场景需借助硬件实现always on模式[1] 合成数据与人形机器人发展 - 合成数据被视为数据金字塔中坚力量DARPA寒冬已过人形机器人迎来技术和市场双重爆发[2] - 人形机器人利用以人为中心数据源真实数据虽是黄金标准但被称为最大瓶颈GenAI指数引擎是否创造有用数据受关注[2]