世界模型(World Models)
搜索文档
Alex Wang“没资格接替我”!Yann LeCun揭露Meta AI“内斗”真相,直言AGI是“彻头彻尾的胡扯”
AI前线· 2025-12-20 13:32
文章核心观点 - 图灵奖得主Yann LeCun严厉批评当前硅谷主流的人工智能发展路径,认为仅靠扩大语言模型规模、使用更多合成数据的路径行不通,是一条“死胡同”[2] - LeCun认为,实现真正智能的关键障碍是让机器具备“狗的智能水平”,这比达到人类水平更困难,核心在于获得对现实世界的理解、预测和行动能力,而非仅仅生成流畅文本[3] - 为此,LeCun通过其新创公司AMI(先进机器智能)推动构建“世界模型”,该模型在抽象表征空间中对世界运行规律进行建模和预测,旨在为机器提供接近真实认知的基础能力[3] 对当前AI发展路径的批评 - 批评业界对大语言模型规模化的执念,认为这条路径“完全是胡扯”,无法通向超级智能[2] - 指出大语言模型架构需要海量数据模仿人类行为,且可靠性有限,其构建的智能体系统并不理想[9] - 认为仅靠文本训练永远不可能达到人类水平的智能,因为文本是“记忆型”数据,冗余度低,而现实世界的视频等数据在结构上更丰富,更有学习价值[20][21] - 认为大语言模型并不真正理解世界的基本规律,它们只是被微调到给出“看起来正确”的答案,这是复述而非理解[28] “世界模型”技术路线 - 核心思路是在抽象表征空间中对世界运行规律进行建模和预测,而非在像素或文本层面进行输出[3] - 关键技术是JEPA(联合嵌入预测架构),其思想是学习一个抽象的表征空间,滤除输入中大量无法预测的细节(包括噪声),然后在此空间内进行预测[11] - 强调世界模型不需要是现实的逐像素模拟器,而是在抽象表征空间中,只模拟与任务相关的那部分现实[24] - 认为构建世界模型的正确方法是训练能够学习抽象表征的模型,并介绍了Barlow Twins、VICReg、SigReg(Lojic-JEPA)等相关方法[18] 创业公司AMI(先进机器智能)的规划 - 公司最终目标是推出实际产品,产品将围绕世界模型和规划等核心技术展开,其雄心是成为未来智能系统的主要供应商之一[9] - 公司计划以开放的方式进行上游研究,认为公开发表成果是取得突破的必要途径[7][8] - 公司是一家全球性企业,在巴黎、纽约等地设有办公室,选择在硅谷之外启动部分业务是为了避免陷入硅谷的“技术单一化”竞争环境[55] 对AI发展现状与未来的判断 - 认为达到“狗水平智能”是AI发展中最难的部分,一旦实现,绝大多数核心要素就已具备[37] - 最乐观估计,在5到10年内,或许能看到接近人类或至少接近“狗水平”的智能系统,但历史表明可能会出现新瓶颈,可能需要20年或更久才能突破[35][36] - 不认同“通用智能”的概念,认为应以“人类水平智能”为讨论目标,且这个过程将是渐进的,而非突发事件[33][34] - 认为当前AI在游戏等领域的应用进步缓慢,部分原因在于创作者需要“可控性”,而非完全的AI自由演化[30] 对AI安全与架构的看法 - 认为安全必须与发展同步进行,而不是先停下来等待“绝对安全”[41] - 主张转向以目标驱动为核心的AI架构,该系统拥有世界模型、规划能力,并受到一套硬性约束的限制,从设计层面确保安全[42][43] - 批评当前通过微调或过滤来限制大语言模型输出的方法成本高昂、低效且不可规模化,本质上是“暴力搜索”[43][44] 对行业与其他公司的评价 - 指出硅谷因竞争极端激烈,导致几乎所有大公司(如OpenAI、Meta、Google、Anthropic)都在做同样的事情,形成了“技术单一化”[55][56] - 认为这种同质化竞争容易被来自完全不同方向的技术突破所颠覆[57] - 评价其他构建世界模型的公司:认为Physical Intelligence的方向仍是“生成像素”的思路;认可Wayve公司在自动驾驶领域构建世界模型的方法(在表示空间预测),但指出其表示空间通过重建训练获得是错误的;提及Sandbox AQ的“大型定量模型”概念与自身主张一致[52][53][54] 个人职业与Meta相关 - 解释离开Meta创业的原因:看到AI投资热潮让长期研究型创业成为可能,且认为许多实验室正转向封闭,因此选择在外部推进自己的研究方向[6] - 澄清Alex Wang在Meta的角色是统管所有AI相关的研发与产品整体运作,而非接替其科研职责,其职责涵盖FAIR(基础研究)、TBD Lab(前沿模型)、AI基础设施和产品部门[46] - 指出Meta的FAIR实验室正被推向更短期、更偏应用的研究方向,公司整体正在变得更“封闭”[48]
Alex Wang“没资格接替我”,Yann LeCun揭露Meta AI“内斗”真相,直言AGI是“彻头彻尾的胡扯”
36氪· 2025-12-17 10:45
对当前主流AI发展路径的批判 - 图灵奖得主Yann LeCun尖锐批评当前硅谷主流的人工智能发展路径,认为单纯依靠扩大语言模型规模、喂更多合成数据、雇佣数千人进行后训练以及强化学习微调,是一条“完全胡扯”且“根本行不通”的死胡同[1] - 其观点挑战了行业以语言能力和知识覆盖面为中心的评估体系,指出现实世界中的理解、预测和行动能力远比生成流畅文本复杂,而现有以语言为核心的模型并未触及问题本质[2] - 业界对大语言模型规模化的执念,正将人工智能引向一条看似高速、实则封闭的死胡同[1] 对AI发展关键瓶颈的判断 - 真正制约AI进步的关键,并非如何更快逼近“人类级智能”,而是如何跨越一个常被低估却极其困难的门槛——让机器具备“狗的智能水平”[2] - 从“狗水平智能”到“人类水平智能”的跨越相对容易,最难的部分是达到“狗水平”,一旦达到该阶段,绝大多数核心要素就已具备[34] - 从灵长类到人类,新增的关键能力可能主要是语言,而语言在大脑中只占据极小的区域,当前技术在这方面已做得相当不错[34] 关于AGI(通用人工智能)的见解 - “通用智能”这个概念本身站不住脚,它本质是以“人类智能”为参照定义的,但人类智能本身高度专用化[30] - 与其讨论“通用智能”,不如讨论“人类水平智能”,即机器在所有人类擅长的领域达到或超过人类,这个过程将是渐进而非突发的[31] - 如果一切顺利且无根本性障碍,最乐观估计在5到10年内,或许能看到接近人类或至少接近“狗水平”的智能系统,但历史表明AI发展中总会出现新瓶颈,可能需要20年甚至更久才能突破[32][33] 新公司AMI的技术路线与愿景 - 结束在Meta长达12年的职业生涯后,LeCun通过其新公司AMI(先进机器智能)推动构建“世界模型”的技术路线,旨在让机器理解和预测世界[2][5] - 与主流生成模型在像素或文本层面输出不同,AMI的核心思路是在抽象表征空间中对世界运行规律进行建模和预测,关注“世界将如何演化”而非“生成看起来像什么”[2] - 公司最终目标是推出围绕世界模型和规划等核心技术的实际产品,并希望未来成为智能系统的主要供应商之一[7] - 公司计划以开放的方式进行上游研究,认为公开发表成果是取得突破的必要途径[5][6] 世界模型的技术原理与优势 - 世界模型旨在处理高维度、连续且含噪声的数据模态(如图像、视频),而大语言模型对此完全无能为力[9] - 有效方法是学习一个抽象的表征空间,滤除输入中大量无法预测的细节(包括噪声),然后在该表征空间内进行预测,这是JEPA(联合嵌入预测架构)的核心思想[9] - 世界模型不需要是现实的逐像素模拟器,而是在抽象表征空间中,只模拟与任务相关的那部分现实,这类似于计算流体力学等科学模拟中使用的抽象层级[20][21][22] - 视频等真实世界数据在字节层面更冗余,这种冗余结构使得自监督学习成为可能,其结构远比文本丰富,仅靠文本训练永远不可能达到人类水平的智能[18][19] 对大语言模型局限性的分析 - 当前基于大语言模型的架构构建的智能体系统并不理想,需要海量数据模仿人类行为且可靠性有限[8] - 要训练一个性能尚可的大语言模型,需使用几乎整个互联网中所有可获取的文本数据,一个典型模型的预训练规模大约是30万亿token(约10¹⁴字节),模型需要极大存储能力来记忆并复述这些事实[18] - 大语言模型并不真正理解基础世界规律(如物体会下落),它们只是被微调到给出“看起来正确”的答案,这是复述而非理解[25] - 通过微调语言模型来解决安全问题存在根本缺陷,因为它们总可以被“越狱”绕过限制[37] 对合成数据与模拟环境的看法 - 合成数据具有价值,例如孩子通过游戏在受控模拟环境中学习[24] - 需警惕某些模拟的失真(如视频游戏中为“好看”而非真实的物理效果),不加控制可能会影响模型在现实世界中的泛化能力[24] - 关键不在于是否使用模拟,而在于在哪个抽象层级上训练模型,很多基础世界规律是在非常抽象的层面上学到的[24] 对AI安全与治理的立场 - 安全必须与发展同步进行,而不是先停下来等“绝对安全”,可类比喷气发动机通过不断工程改进达到高可靠性的发展路径[37] - 应转向以目标驱动为核心的AI架构,该系统拥有世界模型预测行为后果,可规划行动序列,并受到一整套硬性约束限制,在设计层面就是安全的[38][39] - 当前LLM领域通过生成大量候选输出再进行过滤排序来限制输出的方法,计算成本高得离谱,昂贵、低效且不可规模化[39] - 强大技术必然伴随风险(如汽车早期),但那是工程和治理问题,而非不可逾越的根本障碍,AI已在医疗影像等领域挽救大量生命[35][36][50] 对行业生态与竞争格局的观察 - 当前AI投资热潮让长期研究型创业成为可能,而以前这类研究只能依托于大企业或大公司的研究院[5] - 包括谷歌、OpenAI甚至Meta在内的许多实验室正从开放研究转向封闭[5] - 硅谷因竞争极端激烈,所有公司都被迫做同一件事(大语言模型),催生了技术单一化现象,OpenAI、Meta、Google、Anthropic几乎所有公司都在做同样的事情[47] - 这种环境导致公司拼命在同一条战壕里竞争,却很容易被来自“完全不同方向”的技术突破所颠覆[48] - 在硅谷大公司内部,也有不少人私下认同当前主流路径错误,LeCun的新公司正在招募这些人[49] 对其他相关公司与技术的评价 - 对大多数试图构建世界模型的公司(如SSI)具体在做什么不太清楚,SSI甚至成了行业笑话[44] - Physical Intelligence主要做几何一致的视频生成,但这仍是“生成像素”的思路,LeCun认为这是错误方向[44] - 认可Wayve公司在自动驾驶领域构建的世界模型,认为其做对了一半(预测发生在表示空间),但问题在于其表示空间仍主要通过重建训练得到[45] - 认可NVIDIA和Sandbox AQ的类似方向,Sandbox AQ提出的“大型定量模型”与LeCun的主张高度一致[46] - Google做了很多世界模型,但主要仍是生成式路径,Danijar Hafner的Dreamer系列模型走在正确道路上,但其已离开Google创业[47] 关于Meta内部AI方向的变动 - Alex Wang负责Meta所有AI相关的研发与产品整体运作,而非科研本身,他并不是在“接替”LeCun的科研角色[40] - Meta的“超级智能实验室”体系下分为四部分:FAIR(长期基础研究)、TBD Lab(前沿大语言模型)、AI基础设施、产品部门,Alex Wang统管这四个方向[40] - FAIR目前被明显推向更短期、更偏应用的研究方向,发表论文的重要性下降,更多是为TBD Lab的大模型工作提供支持,这意味着Meta整体正在变得更“封闭”[42] - 一些研究团队(如做SAM的团队)已被重新归类到产品部门[43]
65岁LeCun被卷回巴黎老家,与小扎一刀两断,曝光神秘AI初创
36氪· 2025-12-05 19:45
核心观点 - Meta首席AI科学家Yann LeCun离职创业 其新公司专注于开发基于“世界模型”的高级机器智能 旨在让AI理解并预测物理世界 这与当前行业过度投资大语言模型的技术路线形成鲜明对立 [1][3][11] - Yann LeCun公开批评大语言模型存在根本性局限 认为其已触及天花板 并将行业资源视为“黑洞” 阻碍了其他AI路径的发展 [6][8] - Meta公司尽管口头支持LeCun的创业 但并未进行财务投资 显示出双方在技术路线和商业兴趣上存在分歧 [1][36][38] 关键人物动态 - Yann LeCun在Meta工作12年后将于年底离职并创业 其新公司专注于开发“世界模型”以实现高级机器智能 [1][3] - LeCun表示Meta是其新公司的合作伙伴但并非投资者 暗示项目范围可能超出Meta的兴趣 [1][36][38] - 媒体报道LeCun计划离职后 Meta股价下跌了2% 据此估计LeCun对Meta的价值约为300亿美元 [38] 技术路线分歧 - Yann LeCun认为大语言模型仅是“token生成器” 缺乏对物理世界的理解、记忆和多步推理能力 几乎过时 [6] - LeCun指出大语言模型是自回归的 属于System 1 没有真正推理 不具备达到人类或狗类智能水平所需的四项能力 [6] - 他认为大语言模型像“黑洞”一样吸干了所有资源和关注 导致其他AI研究领域寸草不生 [8] - 与此相对 Meta公司正投入数十亿美元重金招揽大语言模型专家 甚至由CEO亲自参与挖角 这被视作对LeCun技术路线的一种否定 [8][11] “世界模型”技术理念 - LeCun倡导的“世界模型”是一种基于视觉等感官信息训练的非生成式AI 旨在预测物理世界 其理念可追溯至1943年的心理学概念 [3][12][14] - 他认为真正的智能需要构建“心理模型”或内部表征 以进行规划、推理和与复杂环境交互 而这大部分是通过观察和交互后天学来的 [21][22] - 过去10年 LeCun致力于此方向 前5年探索 后5年基于非生成式架构取得实质进展 并发展出联合嵌入预测架构 [16][20][21] - 世界模型不仅预测下一帧视频 更关键的是预测在不同动作下所有可能结果的分布 因此需要大量交互数据而不仅是视频数据 [25][26] - LeCun用比喻说明差异:大语言模型像盲目滚下山的雪球 而真正的智能应像能感知环境并规划路径的雪人 [27][29][30] 对当前AI发展的批判 - LeCun指出“莫拉维克悖论”依然存在:AI能在律师考试等抽象任务中表现出色 但无法让机器人具备五岁孩子的行动能力 [20][21] - 他认为理解物理世界比理解语言更难 文本只是对人类丰富感知的高度压缩和抽象描述 无法涵盖大部分关于物理世界的直觉和心理模型 [20][32][35] - 人类思考依赖心理意象而非token 因此仅通过缩放语言模型无法产生真正的智能 [20][35] - 他批评硅谷完全被生成式模型迷住 暗示其创业需在硅谷之外的非主流环境如巴黎进行 [38] 行业影响与现状 - 全球科技巨头正将数十亿美元投入大语言模型领域 并相信缩放定律能支持其通向通用人工智能 [4] - 行业围绕大语言模型迅速形成“共识” 但AI领域最顶尖的科学家对其作为智能路径的根本问题仍存在深刻分歧 [40] - 对智能本质的探索尚无定论 技术路径的竞争仍在继续 [40]