Workflow
Nested Learning(NL)
icon
搜索文档
Jeff Dean盛赞姚班校友AI新研究,目前人已到Meta
量子位· 2025-11-15 13:00
嵌套学习范式核心创新 - 提出一种全新机器学习范式Nested Learning,模仿人脑分层认知机制,将模型从扁平计算网重构为嵌套式多层优化系统[6][9][12] - 核心逻辑是复杂AI模型由多个嵌套/并行优化问题构成,而非固定架构与独立算法组合,解决大模型顺行性遗忘痛点[9][10][11] - 传统Transformer被揭示为NL简化版,仅使用单层线性结构而未发挥多层级协同优势[6][14] 三大技术组件突破 - 深度优化器采用MLP神经网络替代线性记忆存储梯度规律,具备预处理机制可预判梯度变化并灵活调参[17][18] - 自我修改模型使模型在训练中自主学习调整参数,面对新领域数据无需人工干预架构修改[19] - 连续记忆系统将短期/长期记忆二元结构升级为多尺度记忆链,不同MLP模块按不同频率更新实现分层记忆管理[20] Hope模型性能表现 - 基于NL范式的Hope模型在语言建模和常识推理任务中全面超越Transformer等基线模型[8][23] - 760M参数规模Hope在Wiki文本困惑度达26.05,低于Transformer++的25.21和RetNet的26.08[24] - 1.3B参数规模Hope在多项指标领先:Wiki困惑度15.11优于Transformer++的18.53,常识推理平均准确率57.23%超越基线[24] 行业影响与前景 - NL范式跳出了堆层扩参的惯性思维,为AI持续学习、长上下文推理等关键难题提供全新解决方案[11][25] - 该研究获谷歌AI负责人Jeff Dean公开点赞,论文已被NeurIPS 2025接收,显示学术界高度认可[2][8]