Workflow
抽象表示
icon
搜索文档
杨立昆公开“手撕”Meta 内部环境:“LLM 吸光了房间里的空气”,物理世界才是 AGI 的终局
AI科技大本营· 2026-03-30 17:12
文章核心观点 - AI发展的主流路径(大语言模型LLM和生成式视频)存在根本性限制,无法通向真正的通用人工智能(AGI)[4][7] - 当前AI缺失的关键部分是能够理解、预测和规划现实世界的“世界模型”[7][9] - 联合嵌入预测架构(JEPA)是构建世界模型、克服生成式方法局限性的正确技术路径[7][12] - 生成式方法(如LLM的下一token预测)在处理连续、高维度的现实世界信号(如视频)时存在本质缺陷,而JEPA通过在学习到的抽象表示空间中进行预测,避开了这一缺陷[10][12][15] 对LLM及生成式路线的批判 - LLM基于“下一token预测”的自监督学习范式,在离散、有限词汇的文本领域有效,但无法直接应用于连续、细节不可预测的真实世界信号(如视频)[9][10] - 生成式方法要求模型重建输入信号的所有细节,这在现实世界中是根本不可行的,因为大部分细节本质上是不可预测的[10][12][15] - 试图让AI预测视频中所有像素的未来状态是徒劳的,例如无法预测房间内每个人的具体样貌或地毯的纹理[10] - 物理世界的模拟(如空气动力学)早已证明,有效的预测必须忽略微观细节(如单个分子运动),转而依赖高层抽象(如速度、密度)[11][12] JEPA(联合嵌入预测架构)的原理与优势 - JEPA的核心思想是放弃重建输入细节,转而学习一种能够支持预测的抽象表示,并在该表示空间中进行预测[7][12] - 该方法模仿了物理学和工程学中的分层建模思想:通过忽略下层细节,保留足够的高层结构来进行有效预测,例如从量子场到原子、分子、再到生物体的层层抽象[12] - JEPA的目标是学习“带动作条件的预测”模型,即给定当前世界状态和采取的行动,预测下一状态,这构成了可用于规划的世界模型[13] - 在计算机视觉领域,联合嵌入方法(不重建像素)长期在经验上优于各种重建式自监督学习方法(如VAE、遮罩自编码器),这被视为一个强烈的经验信号,表明重建对于自然信号是个“坏主意”[16][17] JEPA路线的技术成熟与突破 - 联合嵌入方法长期面临“塌缩”问题,即模型会忽略输入,输出平凡解[18] - 近年来,通过Barlow Twins、VICReg、基于蒸馏的方法(如DINO系列)等技术,已有效解决了塌缩问题,使得该路径在图像表示学习上变得非常有效和可行[19] - 这些防塌缩方法的成功,虽理论解释尚未完全清晰,但为JEPA路线的实践铺平了道路[19] 行业资源分配与公司战略转向 - 整个行业资源过度向LLM范式倾斜,LLM“吸走了房间里的所有空气”,导致更长期、更激进的非主流研究方向(如JEPA)难以获得足够支持[21] - Meta等大型科技公司的重心已转向短期目标,即追赶LLM产业浪潮,这使得其内部对偏离主流范式的长期研究项目的支持减弱[21] - JEPA技术的重要应用场景(如工业流程控制、机器人、现实世界系统)与Meta等以社交连接为核心业务的公司战略契合度较低,存在市场错位[21] - 外部融资条件成熟、JEPA技术成果开始显现,以及更广阔的应用空间,共同促使相关研究转向更专注的新实体(如AMI Labs)[22] 世界模型的应用前景与分层结构 - 世界模型(基于JEPA)是构建可靠智能体系统的关键,因为LLM本身无法预测自身行动的后果[13] - 最终可能需要“分层JEPA”结构,低层模型进行短时、细节的预测,高层模型进行长时间、大尺度的预测,这与物理学的重整化群理论思想相通[23] - 高层抽象模型具备跨领域迁移“直觉”的潜力,例如对流体动力学的高层理解可同时应用于发动机、机翼和帆船的设计[23] - 在经济学、金融等复杂系统建模中,JEPA式的数据驱动抽象方法可能有应用前景,但面临数据噪音大、信噪比低的挑战[26][27] - 该方法已在卫星模型训练等特定领域取得简单且效果良好的应用实例[23]