Workflow
AI顿悟(Grokking)
icon
搜索文档
AI研究员田渊栋:“AI顿悟”的真相、大模型如何学会压缩世界
36氪· 2025-10-31 18:39
Meta AI部门裁员与团队贡献 - Meta首席执行官批准AI部门约600名员工的裁员计划,这是公司今年在人工智能领域规模最大的一次调整,主要波及核心研发机构[1] - Meta FAIR团队负责人田渊栋确认其与部分团队成员受到裁员影响,FAIR团队是公司“超智能实验室”科研体系的核心支柱之一[1] - 田渊栋澄清其团队在Meta大模型开发中做出大量贡献,包括率先发现预训练模型中的chunk attention等关键问题,并推动解决方案落地,有效提升long-context RL稳定性[8][9] - 团队贡献还包括数据集生成和评测、RL基础设施构建优化,以及攻克大模型训练中上下文长度训练的稳定性难题,解决训练中常见的blow up问题[9][10] - 团队面临的最大挑战并非技术本身,而是需要花费大量时间精力通过实验数据说服产品团队接受其技术判断,这体现了研究员在有限信号下识别结构性问题的核心价值[12][13] AI学习机制突破与Grokking理论研究 - 田渊栋研究揭示AI学习核心突破:在群运算任务中,模型仅需O(M log M)个样本即可实现泛化,相比传统认为需要M²种组合的理论大幅降低数据需求,以M=1000为例,新理论仅需约7000个样本,而以往需要百万级样本[3][4] - Grokking现象被证明不是神秘涌现,而是可计算的能量景观动力学,其数学机制揭示从记忆到泛化是优化动力学过程:数据不足时“记忆峰”占优,数据增多时“泛化峰”升高,一旦泛化峰略高,参数集体翻越产生顿悟现象[7][34] - 该研究为数据受限时代的高效训练提供理论依据,表明AI无需“看遍世界”式的暴力学习也能从极少样本中顿悟深层结构,尤其在数据触顶、样本稀缺时,机理导向的改进能突破Scaling Law局限[4][27][33] - 泛化的本质是让模型学会“压缩”世界,从冗余记忆中提炼可重复使用结构,真正理解的标准包括在新情形下给出正确答案,以及将复杂问题还原为简洁通用逻辑[7][33] 研究路径比较与未来方向 - 当前AI研究存在两种路径:黑盒Scaling Law强调堆参数调配置,短期高效;机制理解则追求解释与结构,长期天花板更高[23][27] - 当数据触顶、样本稀缺时,Scaling Law失效,唯有机理导向的改进才能突破局限,特别是在小众领域数据稀缺情况下,对模型机理的深入理解可通过改进训练算法或架构实现少样本学习[30][32][40] - 损失函数只是优化的代理信号,其作用是生成合适梯度流引导表征更新,不同损失函数若诱导出相似梯度结构就能学到近似表征,目标函数本身是优化的“可计算代理”[37][42] - 未来方向包括基于机理理解改进训练算法或架构,降低“费数据”特性,使优化过程更容易抵达“泛化峰”,这在小样本稀疏世界中实现“结构性迁移”尤为重要[40][41] AI在科研中的角色演变 - AI正在成为科研中的“共创者”,田渊栋透露其关于Grokking的论文部分思考是与GPT-5对话后产生的,虽然需要给模型一些洞察和思考才能获得不一样输出[4][45] - 研究范式正在发生变化,未来可能出现“AI Scientist”或Agent框架协助研究,但真正重要的洞察仍需人类提供,AI目前更像“新来的博士生”,话多却抓不住核心[44][46] - “讲清楚”的能力蕴含着理解深度与美感,这种能力很难被建模成损失函数,如何让模型具备这样的能力可能是下一个值得探索的科学问题[47][49]