嵌套学习
搜索文档
为什么这篇谷歌论文被称为「Attention is all you need」V2
量子位· 2025-12-21 13:45
文章核心观点 - 谷歌提出名为“嵌套学习”的新研究范式,指出当前大型语言模型存在“数字失忆症”的根本问题,并认为解决之道在于引入“频率”这一被忽略的维度,而非单纯增加模型深度和参数量[1][5] - 研究颠覆性地揭示了主流优化器本身就是一个持续进行“记忆”的关联记忆系统,这为重新审视整个学习架构提供了支点[5][6] - 基于新范式构建的HOPE架构,通过一个连续记忆光谱系统,模仿人脑多频率记忆机制,展现了解决持续学习问题的潜力,可能引领一场AI设计逻辑的范式转移[14][16][18] 当前AI模型的局限与问题 - 当前所有大型语言模型普遍存在“数字失忆症”,即无法记住对话中刚教授的新知识,快速遗忘[2][3] - 过去十年,行业主要遵循“规模即智能”的黄金定律,通过堆叠Transformer层和追逐万亿参数来试图解决记忆问题,但此方向存在明显问题[3] - 仅提高算法复杂度和模型规模,可能不会使快速适应新任务、持续学习及泛化等能力显著提升,且训练可能收敛到次优解[4] - 当前大模型的工作频率只有两种极端:快速响应但转瞬即逝的对话缓存,以及预训练完成后便冻结的长期知识,严重缺失中间频谱的记忆通道,导致新知识无处安放[11][12] “嵌套学习”新范式 - 该研究被誉为“Attention is All You Need”V2,其核心是认为真正有效的智能学习需要两个正交维度:深度(模型层数与容量)和频率(模型内部组件自我更新的节奏与速度)[1][5][9][10] - 研究指出,优化器不仅是指引参数更新的引擎,其本身就是一个在不同时间尺度上并行运行、持续压缩存储梯度变化模式的关联记忆系统[5][6] - 从优化器到注意力机制再到整个神经网络,可以被统一重新审视为在不同速度、不同抽象层级上嵌套运行的“学习-记忆”模块,而现有的深度学习体系只是这个更宏大范式的扁平化投影[6][7] HOPE架构与连续记忆系统 - 基于“嵌套学习”范式,研究团队构建了名为HOPE的新型架构,其核心创新是一个连续记忆系统[14] - 该系统由一系列像光谱一样排列、以不同预设频率更新的MLP模块组成,信息输入后会在不同节奏的记忆模块间自动流动与分配[14] - 高频模块类似“工作记忆”,快速捕捉即时细节与上下文;中频模块类似“近期记忆”,负责提炼归纳一段时间内的模式;低频模块类似“长期记忆”,缓慢稳定地将最重要知识沉淀为固有能力[14][15][16] - 此过程高度模仿了神经科学中信息从海马体向新皮层转移巩固的机制,在初步实验中已在标准语言建模和常识推理任务上展现强大竞争力,并显露出解决持续学习问题的巨大潜力[16][17] 研究的意义与影响 - “嵌套学习”的深远意义在于提供了一套全新的AI设计逻辑和思考框架,其突破不一定依赖于发明更复杂的“神经元积木”,而在于设计能激发潜能的框架[18] - 如同2017年“注意力”机制统一了序列建模的视野,“嵌套学习”正试图为学习过程本身构建一个统一、可解释的“白箱”模型[18] - 该研究启示,人工智能的未来不仅需要更深的网络,更需要一个能够持续学习和演化的系统,而非一个静止的、被凝固在训练完成一刻的“知识琥珀”[18]
通信行业周观点:谷歌嵌套学习架构革新,Claude Opus4.5高性价比-20251202
长江证券· 2025-12-02 17:42
行业投资评级 - 投资评级为“看好”,并予以“维持” [9] 核心观点 - 谷歌提出的嵌套学习理论与HOPE架构,通过重塑长期记忆与推理效率,突破了Transformer在极长序列下的记忆瓶颈,有望大幅降低训练与推理成本 [2][5] - Anthropic发布的Claude Opus 4.5模型以SOTA性能夺得软件工程榜首,其定价策略极具攻势,并实现了应用端的深度生态集成 [2][6] - 人工智能领域的架构升级与高端模型迭代形成共振,共同推动算力产业链景气度持续上行 [2][7] 板块行情表现 - 2025年第48周,通信板块上涨8.71%,在长江一级行业中排名第1位 [2][4] - 2025年年初以来,通信板块累计上涨64.42%,在长江一级行业中同样排名第1位 [2][4] - 在市值80亿元以上的通信公司中,本周涨幅前三为光库科技(+39.2%)、通宇通讯(+39.1%)、太辰光(+22.3%);跌幅前三为和而泰(-4.2%)、宝信软件(-3.0%)、华测导航(-2.7%) [4] 技术革新分析 - 谷歌HOPE架构将模型拆分为不同更新频率的模块,高频模块负责即时推理与短期记忆,低频模块承担知识沉淀与长期记忆,解决了传统Transformer在极长序列下注意力分散的问题 [5] - 在同等参数规模下,HOPE架构展现出最低的困惑度和最高的常识推理准确率,并具备卓越的内存管理能力 [5] - Claude Opus 4.5支持200k上下文窗口与64k最长输出,在真实世界软件工程测试中以80.9%的成绩领先于GPT-5.1Codex Max(77.9%)和Gemini 3 Pro(76.2%) [6] - Claude Opus 4.5的输入价格由每百万token 15美元下调至5美元(降幅67%),输出价格由75美元下调至25美元(降幅67%),同时引入新参数使实际Token消耗较Sonnet 4.5减少48%-76% [6] 投资建议与重点公司 - 报告推荐了七大细分方向的标的,包括运营商、光模块、液冷、空芯光纤、国产算力、AI应用和卫星应用 [7] - 重点公司包括中国移动(预测2025年归母净利润1,452.28亿元,PE 16.0)、中际旭创(预测2025年归母净利润104.00亿元,PE 55.0)、新易盛(预测2025年归母净利润87.63亿元,PE 39.5)等 [14] 行业数据与趋势 - 海外大模型Token调用量在2025年11月24日至11月30日期间约为7.33T,环比增长16.9% [19] - 在模型调用份额中,Grok 4.1 Fast (free)占比40.5%,Claude Sonnet 4.5占比5.2% [19]
LLM 语境下,「持续学习」是否是 「记忆」 问题的最优解?
机器之心· 2025-11-16 09:30
LLM语境下持续学习与记忆问题 - 谷歌提出嵌套学习范式将模型视为一系列嵌套问题堆叠旨在学习新技能同时规避灾难性遗忘问题[6] - 嵌套学习核心论点在于机器学习模型由多个相互关联层次分明优化子问题组成将模型优化器与记忆统一看作多级并行带独立上下文流优化问题[6] - 基于嵌套学习原理研究者设计HOPE架构在语言建模长上下文推理持续学习与知识整合任务上较Transformer++等基线模型表现出更低困惑度与更高准确率[7] - AI社区存在争议认为嵌套学习类似已有技巧叠加如2020年ModNet和2024年ACh和NA框架等多尺度持续学习并非全新概念[8] - 持续学习核心挑战是解决灾难性遗忘即智能系统学习新任务时避免覆盖旧任务知识LLM时代表现为模型降智如领域SFT训练导致通用基准测试性能下降[8] - 当前LLM研究焦点偏向通过改善记忆力使智能体保留情景经验语义知识和程序技能设想跨持久智能记忆层包含Model Weights层KV Cache层和Context层[8] 从行为数据到AI记忆的路线 - 产品方强调更懂你资本强调难以复制引发AI产品护城河是否真实存在讨论不同产品在记什么记多久上押注不同方向[1] - 医疗对话记忆能否作为知识库提升诊疗质量探讨软件被动记录无法覆盖全部生活场景需借助硬件实现always on模式[1] 合成数据与人形机器人发展 - 合成数据被视为数据金字塔中坚力量DARPA寒冬已过人形机器人迎来技术和市场双重爆发[2] - 人形机器人利用以人为中心数据源真实数据虽是黄金标准但被称为最大瓶颈GenAI指数引擎是否创造有用数据受关注[2]
Jeff Dean盛赞姚班校友AI新研究,目前人已到Meta
量子位· 2025-11-15 13:00
嵌套学习范式核心创新 - 提出一种全新机器学习范式Nested Learning,模仿人脑分层认知机制,将模型从扁平计算网重构为嵌套式多层优化系统[6][9][12] - 核心逻辑是复杂AI模型由多个嵌套/并行优化问题构成,而非固定架构与独立算法组合,解决大模型顺行性遗忘痛点[9][10][11] - 传统Transformer被揭示为NL简化版,仅使用单层线性结构而未发挥多层级协同优势[6][14] 三大技术组件突破 - 深度优化器采用MLP神经网络替代线性记忆存储梯度规律,具备预处理机制可预判梯度变化并灵活调参[17][18] - 自我修改模型使模型在训练中自主学习调整参数,面对新领域数据无需人工干预架构修改[19] - 连续记忆系统将短期/长期记忆二元结构升级为多尺度记忆链,不同MLP模块按不同频率更新实现分层记忆管理[20] Hope模型性能表现 - 基于NL范式的Hope模型在语言建模和常识推理任务中全面超越Transformer等基线模型[8][23] - 760M参数规模Hope在Wiki文本困惑度达26.05,低于Transformer++的25.21和RetNet的26.08[24] - 1.3B参数规模Hope在多项指标领先:Wiki困惑度15.11优于Transformer++的18.53,常识推理平均准确率57.23%超越基线[24] 行业影响与前景 - NL范式跳出了堆层扩参的惯性思维,为AI持续学习、长上下文推理等关键难题提供全新解决方案[11][25] - 该研究获谷歌AI负责人Jeff Dean公开点赞,论文已被NeurIPS 2025接收,显示学术界高度认可[2][8]