持续学习(Continual Learning)
搜索文档
挑战Transformer,前OpenAI研究VP宣布创业,拟融资10亿美元
机器之心· 2026-01-31 12:10
行业趋势:对Transformer架构的反思与新方向探索 - Transformer是当前大语言模型发展的核心基础,但其创造者之一Llion Jones表示正在大幅减少研究Transformer的时间,并明确寻找下一个目标[1][3] - 行业内一个规模虽小但日益壮大的群体认为AI领域需要一场彻底的变革,当前主流技术难以在生物、医学等领域取得重大突破,且无法根除AI常犯低级错误的顽疾[8][9] 公司动态:Core Automation的创立与愿景 - 前OpenAI研究副总裁Jerry Tworek创立新公司Core Automation,公司刚成立几周,正寻求5亿至10亿美元的融资[6] - 公司计划采用与OpenAI、Anthropic等大厂截然不同的路径开发AI模型,目标是打造具备持续学习能力的模型,能够从现实世界的实践中即时获取知识[6] - 公司仍会使用大型神经网络,但将重新审视模型开发的每一个环节,包括训练神经网络的最基本方法梯度下降[11] - 公司计划开发一种对数据量和计算资源需求更低的模型,通过构建全新的架构来取代Transformer架构,并将原本割裂的模型训练步骤整合为单一流程[11] - 按照目标,这款模型所需的数据量将比现有最先进模型少100倍[16] 技术路径:持续学习与单一模型构想 - Core Automation与由前OpenAI首席科学家Ilya Sutskever共同创立的Safe Superintelligence,以及从Meta离职的Yann LeCun,均在探索让模型能够通过在现实世界中部署来不断进化的类似方向[13] - 在Tworek的构想中,Core Automation的研究团队将围绕一个名为Ceres的单一算法和模型展开工作,这与主流厂商将训练分为预训练、中期训练和后期微调的做法大相径庭[15] - 模型研发成功后,公司将开发AI智能体来自动化生产自己的产品,远景规划包括工业自动化、建造自我复制工厂、研制自动生成定制设计的生物机器,乃至改造地外行星的生态[16] 市场环境:资本市场对AI新实验室的狂热 - Tworek宏大的融资目标反映了资本市场对新实验室的持续狂热,近几个月来,许多此类公司尚无收入甚至没有产品,但动辄就能拿到数亿美元的投资[15] - 例如,初创公司Humans&本月以44.8亿美元的估值拿下了4.8亿美元种子轮融资[15] - Mira Murati的Thinking Machines Lab最近也在洽谈一笔40亿至50亿美元的融资,投后估值预计超过500亿美元,该公司去年已推出了模型定制产品并产生了部分收入[15]
Transformer已死?DeepMind正在押注另一条AGI路线
36氪· 2026-01-09 10:42
嵌套学习(Nested Learning)与HOPE架构的核心创新 - 借鉴人类联想记忆机制,提出嵌套学习框架,旨在解决AI长期存在的“灾难性遗忘”问题,使AI能在运行中构建抽象结构,实现真正的持续学习 [1] - 嵌套学习的核心是构建一个由更新频率不同的模块组成的嵌套系统,其中包含快模块(如用于上下文学习的快速自更新器)和慢模块(如多时间尺度记忆),以实现不同时间尺度上的学习 [27] - 该框架将优化器与架构视为互为上下文、协同进化的组件,优化器本身被重新定义为一种关键的“记忆模块” [22] - 基于此框架,谷歌DeepMind团队提出了具体的HOPE架构,该架构结合了自我修改与连续记忆系统,专为长上下文处理和持续学习设计 [31] 对Transformer架构局限性的突破 - 指出Transformer架构存在适应性弱、缺乏持续学习能力等关键局限,特别是其“短期记忆”(当前上下文)与“长期记忆”(预训练知识)之间缺乏自然的知识转移通道,类比为医学上的“顺行性遗忘症” [13][14][15][18] - 嵌套学习及HOPE架构旨在超越Transformer,通过建立知识转移通道,使模型能够将新经历自然沉淀为可复用的长期知识,而无需反复进行昂贵的再训练和微调 [18][23] 技术框架:MIRAS与联想记忆 - 提出一个名为MIRAS的通用框架,用于系统化设计AI模型中的记忆模块,其核心思想是将几乎所有注意力机制、本地记忆结构及优化器都视为“联想记忆”的特例 [19] - 联想记忆的本质是键值对映射,其映射关系是通过学习而非预先写死的,注意力机制即为此系统的一种表现 [18] - 基于MIRAS框架,设计可学习的嵌套式记忆系统需做出四大设计决策:记忆架构、注意力偏置/目标函数、保留机制和学习规则 [20] 嵌套学习中的知识转移机制 - 嵌套学习框架定义了多种关键的知识在层级间传递的方式,包括:直接条件传递、非参数化条件传递、通过反向传播传递、初始状态传递(元学习初始化)以及权重生成(超网络) [37] - 这些机制构成了嵌套学习架构中“信息流动”的基础,确保了从快模块到慢模块、从短期到长期的知识有效沉淀 [30] HOPE架构的性能表现 - 在“大海捞针”实验中,HOPE在多种任务设置下表现优异,例如在S-NIAH-1(通行密钥检索)任务中,上下文长度4K、8K、16K下准确率均达100%,与基准Transformer模型(4K:88.6, 8K:76.4, 16K:79.8)相比有显著提升 [39] - 在持续翻译新语言任务中,HOPE在持续学习设置下(蓝点)相比仅学习单一语言(红点)展现出明显优势 [41] - 在BABILong长上下文基准测试中,HOPE的准确率表现优于Llama3 + RAG、GPT-4、GPT-4o-mini及Titans等对比模型 [42] - 在语言建模和常识推理任务中,参数量1.3B的HOPE模型在平均准确率上达到58.04,优于同规模的Transformer++模型(53.38)及Titans模型(56.82) [45] - 在合成基准MAD上,HOPE在回忆、记忆、压缩和复制任务中取得了最佳结果,压缩任务得分51.2,优于Transformer的49.4 [44] - 消融实验表明,HOPE架构中的连续记忆系统、动态梯度下降等组件对其性能提升均有重要贡献 [46] 行业影响与AGI前景 - 嵌套学习被DeepMind联合创始人Shane Legg等业界领袖高度评价,被认为是继2017年Transformer论文之后最重要的进展,可能开启真正的通用人工智能时代 [1][2][3] - Shane Legg预测,到2028年有50%的把握实现初级通用人工智能,而持续学习可能是实现AGI所需的关键突破之一 [7][9][10] - 该研究由谷歌研究院主导,主要作者包括康奈尔大学博士生兼谷歌研究实习生Ali Behrouz,巩固了谷歌在AI基础研究领域的领先地位和塑造未来技术格局的有利位置 [3][11] - 行业观点认为,嵌套学习不只是一个新架构,更是一种重新理解深度学习的范式,其成功应用可能使AI从被动训练转向主动进化 [1][47]
大模型“缩放定律”悖论:RL(强化学习)越强,AGI(通用智能)越远?
硬AI· 2025-12-24 16:10
文章核心观点 - 知名科技博主Dwarkesh Patel提出,当前AI行业过度依赖基于可验证奖励的强化学习路径,通过耗费巨资为模型“预制”特定技能,这恰恰证明当前大模型缺乏人类般的通用学习能力,距离真正的通用人工智能仍很遥远 [2][3][4] - 通往AGI的真正关键驱动力在于“持续学习”能力,即模型能够像人类一样从经验和反馈中自主学习,而非依赖预先排练好的脚本,这一能力的完善可能需要5到10年甚至更长时间 [4][9][29] 对当前AI发展路径的批判 - **技能预制的悖论**:顶尖AI实验室正耗费数十亿美元,通过强化学习在模型中“预烘焙”或“预制”如操作Excel、浏览网页等特定技能,这种做法本身与AGI应具备的通用学习能力相矛盾,暴露了当前模型的根本缺陷 [3][5][11] - **机器人学问题的本质**:机器人技术普及的障碍本质上是算法问题而非硬件问题,如果拥有类人的学习能力,机器人早应普及,而无需在特定环境下进行百万次重复训练 [6][13] - **经济扩散迟缓的根源**:以“技术扩散需要时间”来解释AI未广泛部署是托词,根本原因在于模型缺乏产生广泛经济价值所必需的能力,如果模型真具备类人智能,其整合速度将远超人类员工 [7][19][20] AGI实现的关键瓶颈与未来展望 - **持续学习是关键瓶颈**:AGI的真正瓶颈在于“持续学习”能力,而非单纯的强化学习算力堆叠,真正的类人智能可能需要未来10到20年才能实现 [9][18] - **能力与市场收入的落差**:全球知识工作者每年创造数十万亿美元价值,而当前AI模型的收入与之相差数个数量级,这证明模型能力尚未达到替代人类知识工作者的临界点 [8][22] - **持续学习将渐进式发展**:解决持续学习问题不会是一蹴而就的单一成就,而会是一个渐进过程,类似于“上下文学习”能力的逐步演进,预计人类水平的“在岗学习”能力可能需要5到10年才能解决 [4][27][29] 对行业竞争与研发趋势的观察 - **强化学习扩展的悲观前景**:有分析指出,基于可验证奖励的强化学习可能需要在大约100万倍的总计算规模上进行扩展,才能获得类似于单一GPT级别的性能提升,这表明该路径的扩展效率可能很低 [25][26] - **行业竞争保持激烈**:模型公司之间的竞争预计将保持相当激烈,此前所谓的飞轮效应在拉开竞争差距方面收效甚微,单个实验室难以获得失控的领先优势 [30]