世界模型（World Models） - 财报，业绩电话会，研报，新闻

世界模型（World Models）

搜索文档

Alex Wang“没资格接替我”！Yann LeCun揭露Meta AI“内斗”真相，直言AGI是“彻头彻尾的胡扯”

AI前线· 2025-12-20 13:32

文章核心观点 - 图灵奖得主Yann LeCun严厉批评当前硅谷主流的人工智能发展路径，认为仅靠扩大语言模型规模、使用更多合成数据的路径行不通，是一条“死胡同”[2] - LeCun认为，实现真正智能的关键障碍是让机器具备“狗的智能水平”，这比达到人类水平更困难，核心在于获得对现实世界的理解、预测和行动能力，而非仅仅生成流畅文本[3] - 为此，LeCun通过其新创公司AMI（先进机器智能）推动构建“世界模型”，该模型在抽象表征空间中对世界运行规律进行建模和预测，旨在为机器提供接近真实认知的基础能力[3] 对当前AI发展路径的批评 - 批评业界对大语言模型规模化的执念，认为这条路径“完全是胡扯”，无法通向超级智能[2] - 指出大语言模型架构需要海量数据模仿人类行为，且可靠性有限，其构建的智能体系统并不理想[9] - 认为仅靠文本训练永远不可能达到人类水平的智能，因为文本是“记忆型”数据，冗余度低，而现实世界的视频等数据在结构上更丰富，更有学习价值[20][21] - 认为大语言模型并不真正理解世界的基本规律，它们只是被微调到给出“看起来正确”的答案，这是复述而非理解[28] “世界模型”技术路线 - 核心思路是在抽象表征空间中对世界运行规律进行建模和预测，而非在像素或文本层面进行输出[3] - 关键技术是JEPA（联合嵌入预测架构），其思想是学习一个抽象的表征空间，滤除输入中大量无法预测的细节（包括噪声），然后在此空间内进行预测[11] - 强调世界模型不需要是现实的逐像素模拟器，而是在抽象表征空间中，只模拟与任务相关的那部分现实[24] - 认为构建世界模型的正确方法是训练能够学习抽象表征的模型，并介绍了Barlow Twins、VICReg、SigReg（Lojic-JEPA）等相关方法[18] 创业公司AMI（先进机器智能）的规划 - 公司最终目标是推出实际产品，产品将围绕世界模型和规划等核心技术展开，其雄心是成为未来智能系统的主要供应商之一[9] - 公司计划以开放的方式进行上游研究，认为公开发表成果是取得突破的必要途径[7][8] - 公司是一家全球性企业，在巴黎、纽约等地设有办公室，选择在硅谷之外启动部分业务是为了避免陷入硅谷的“技术单一化”竞争环境[55] 对AI发展现状与未来的判断 - 认为达到“狗水平智能”是AI发展中最难的部分，一旦实现，绝大多数核心要素就已具备[37] - 最乐观估计，在5到10年内，或许能看到接近人类或至少接近“狗水平”的智能系统，但历史表明可能会出现新瓶颈，可能需要20年或更久才能突破[35][36] - 不认同“通用智能”的概念，认为应以“人类水平智能”为讨论目标，且这个过程将是渐进的，而非突发事件[33][34] - 认为当前AI在游戏等领域的应用进步缓慢，部分原因在于创作者需要“可控性”，而非完全的AI自由演化[30] 对AI安全与架构的看法 - 认为安全必须与发展同步进行，而不是先停下来等待“绝对安全”[41] - 主张转向以目标驱动为核心的AI架构，该系统拥有世界模型、规划能力，并受到一套硬性约束的限制，从设计层面确保安全[42][43] - 批评当前通过微调或过滤来限制大语言模型输出的方法成本高昂、低效且不可规模化，本质上是“暴力搜索”[43][44] 对行业与其他公司的评价 - 指出硅谷因竞争极端激烈，导致几乎所有大公司（如OpenAI、Meta、Google、Anthropic）都在做同样的事情，形成了“技术单一化”[55][56] - 认为这种同质化竞争容易被来自完全不同方向的技术突破所颠覆[57] - 评价其他构建世界模型的公司：认为Physical Intelligence的方向仍是“生成像素”的思路；认可Wayve公司在自动驾驶领域构建世界模型的方法（在表示空间预测），但指出其表示空间通过重建训练获得是错误的；提及Sandbox AQ的“大型定量模型”概念与自身主张一致[52][53][54] 个人职业与Meta相关 - 解释离开Meta创业的原因：看到AI投资热潮让长期研究型创业成为可能，且认为许多实验室正转向封闭，因此选择在外部推进自己的研究方向[6] - 澄清Alex Wang在Meta的角色是统管所有AI相关的研发与产品整体运作，而非接替其科研职责，其职责涵盖FAIR（基础研究）、TBD Lab（前沿模型）、AI基础设施和产品部门[46] - 指出Meta的FAIR实验室正被推向更短期、更偏应用的研究方向，公司整体正在变得更“封闭”[48]

人工智能

通用人工智能（AGI）

世界模型

Artificial Intelligence

Artificial Intelligence

世界模型（World Models）

大语言模型

Alex Wang“没资格接替我”，Yann LeCun揭露Meta AI“内斗”真相，直言AGI是“彻头彻尾的胡扯”

36氪· 2025-12-17 10:45

对当前主流AI发展路径的批判 - 图灵奖得主Yann LeCun尖锐批评当前硅谷主流的人工智能发展路径，认为单纯依靠扩大语言模型规模、喂更多合成数据、雇佣数千人进行后训练以及强化学习微调，是一条“完全胡扯”且“根本行不通”的死胡同[1] - 其观点挑战了行业以语言能力和知识覆盖面为中心的评估体系，指出现实世界中的理解、预测和行动能力远比生成流畅文本复杂，而现有以语言为核心的模型并未触及问题本质[2] - 业界对大语言模型规模化的执念，正将人工智能引向一条看似高速、实则封闭的死胡同[1] 对AI发展关键瓶颈的判断 - 真正制约AI进步的关键，并非如何更快逼近“人类级智能”，而是如何跨越一个常被低估却极其困难的门槛——让机器具备“狗的智能水平”[2] - 从“狗水平智能”到“人类水平智能”的跨越相对容易，最难的部分是达到“狗水平”，一旦达到该阶段，绝大多数核心要素就已具备[34] - 从灵长类到人类，新增的关键能力可能主要是语言，而语言在大脑中只占据极小的区域，当前技术在这方面已做得相当不错[34] 关于AGI（通用人工智能）的见解 - “通用智能”这个概念本身站不住脚，它本质是以“人类智能”为参照定义的，但人类智能本身高度专用化[30] - 与其讨论“通用智能”，不如讨论“人类水平智能”，即机器在所有人类擅长的领域达到或超过人类，这个过程将是渐进而非突发的[31] - 如果一切顺利且无根本性障碍，最乐观估计在5到10年内，或许能看到接近人类或至少接近“狗水平”的智能系统，但历史表明AI发展中总会出现新瓶颈，可能需要20年甚至更久才能突破[32][33] 新公司AMI的技术路线与愿景 - 结束在Meta长达12年的职业生涯后，LeCun通过其新公司AMI（先进机器智能）推动构建“世界模型”的技术路线，旨在让机器理解和预测世界[2][5] - 与主流生成模型在像素或文本层面输出不同，AMI的核心思路是在抽象表征空间中对世界运行规律进行建模和预测，关注“世界将如何演化”而非“生成看起来像什么”[2] - 公司最终目标是推出围绕世界模型和规划等核心技术的实际产品，并希望未来成为智能系统的主要供应商之一[7] - 公司计划以开放的方式进行上游研究，认为公开发表成果是取得突破的必要途径[5][6] 世界模型的技术原理与优势 - 世界模型旨在处理高维度、连续且含噪声的数据模态（如图像、视频），而大语言模型对此完全无能为力[9] - 有效方法是学习一个抽象的表征空间，滤除输入中大量无法预测的细节（包括噪声），然后在该表征空间内进行预测，这是JEPA（联合嵌入预测架构）的核心思想[9] - 世界模型不需要是现实的逐像素模拟器，而是在抽象表征空间中，只模拟与任务相关的那部分现实，这类似于计算流体力学等科学模拟中使用的抽象层级[20][21][22] - 视频等真实世界数据在字节层面更冗余，这种冗余结构使得自监督学习成为可能，其结构远比文本丰富，仅靠文本训练永远不可能达到人类水平的智能[18][19] 对大语言模型局限性的分析 - 当前基于大语言模型的架构构建的智能体系统并不理想，需要海量数据模仿人类行为且可靠性有限[8] - 要训练一个性能尚可的大语言模型，需使用几乎整个互联网中所有可获取的文本数据，一个典型模型的预训练规模大约是30万亿token（约10¹⁴字节），模型需要极大存储能力来记忆并复述这些事实[18] - 大语言模型并不真正理解基础世界规律（如物体会下落），它们只是被微调到给出“看起来正确”的答案，这是复述而非理解[25] - 通过微调语言模型来解决安全问题存在根本缺陷，因为它们总可以被“越狱”绕过限制[37] 对合成数据与模拟环境的看法 - 合成数据具有价值，例如孩子通过游戏在受控模拟环境中学习[24] - 需警惕某些模拟的失真（如视频游戏中为“好看”而非真实的物理效果），不加控制可能会影响模型在现实世界中的泛化能力[24] - 关键不在于是否使用模拟，而在于在哪个抽象层级上训练模型，很多基础世界规律是在非常抽象的层面上学到的[24] 对AI安全与治理的立场 - 安全必须与发展同步进行，而不是先停下来等“绝对安全”，可类比喷气发动机通过不断工程改进达到高可靠性的发展路径[37] - 应转向以目标驱动为核心的AI架构，该系统拥有世界模型预测行为后果，可规划行动序列，并受到一整套硬性约束限制，在设计层面就是安全的[38][39] - 当前LLM领域通过生成大量候选输出再进行过滤排序来限制输出的方法，计算成本高得离谱，昂贵、低效且不可规模化[39] - 强大技术必然伴随风险（如汽车早期），但那是工程和治理问题，而非不可逾越的根本障碍，AI已在医疗影像等领域挽救大量生命[35][36][50] 对行业生态与竞争格局的观察 - 当前AI投资热潮让长期研究型创业成为可能，而以前这类研究只能依托于大企业或大公司的研究院[5] - 包括谷歌、OpenAI甚至Meta在内的许多实验室正从开放研究转向封闭[5] - 硅谷因竞争极端激烈，所有公司都被迫做同一件事（大语言模型），催生了技术单一化现象，OpenAI、Meta、Google、Anthropic几乎所有公司都在做同样的事情[47] - 这种环境导致公司拼命在同一条战壕里竞争，却很容易被来自“完全不同方向”的技术突破所颠覆[48] - 在硅谷大公司内部，也有不少人私下认同当前主流路径错误，LeCun的新公司正在招募这些人[49] 对其他相关公司与技术的评价 - 对大多数试图构建世界模型的公司（如SSI）具体在做什么不太清楚，SSI甚至成了行业笑话[44] - Physical Intelligence主要做几何一致的视频生成，但这仍是“生成像素”的思路，LeCun认为这是错误方向[44] - 认可Wayve公司在自动驾驶领域构建的世界模型，认为其做对了一半（预测发生在表示空间），但问题在于其表示空间仍主要通过重建训练得到[45] - 认可NVIDIA和Sandbox AQ的类似方向，Sandbox AQ提出的“大型定量模型”与LeCun的主张高度一致[46] - Google做了很多世界模型，但主要仍是生成式路径，Danijar Hafner的Dreamer系列模型走在正确道路上，但其已离开Google创业[47] 关于Meta内部AI方向的变动 - Alex Wang负责Meta所有AI相关的研发与产品整体运作，而非科研本身，他并不是在“接替”LeCun的科研角色[40] - Meta的“超级智能实验室”体系下分为四部分：FAIR（长期基础研究）、TBD Lab（前沿大语言模型）、AI基础设施、产品部门，Alex Wang统管这四个方向[40] - FAIR目前被明显推向更短期、更偏应用的研究方向，发表论文的重要性下降，更多是为TBD Lab的大模型工作提供支持，这意味着Meta整体正在变得更“封闭”[42] - 一些研究团队（如做SAM的团队）已被重新归类到产品部门[43]

Meta Platforms(US:META)

Artificial Intelligence

Artificial Intelligence

大语言模型

65岁LeCun被卷回巴黎老家，与小扎一刀两断，曝光神秘AI初创

36氪· 2025-12-05 19:45

核心观点 - Meta首席AI科学家Yann LeCun离职创业其新公司专注于开发基于“世界模型”的高级机器智能旨在让AI理解并预测物理世界这与当前行业过度投资大语言模型的技术路线形成鲜明对立 [1][3][11] - Yann LeCun公开批评大语言模型存在根本性局限认为其已触及天花板并将行业资源视为“黑洞” 阻碍了其他AI路径的发展 [6][8] - Meta公司尽管口头支持LeCun的创业但并未进行财务投资显示出双方在技术路线和商业兴趣上存在分歧 [1][36][38] 关键人物动态 - Yann LeCun在Meta工作12年后将于年底离职并创业其新公司专注于开发“世界模型”以实现高级机器智能 [1][3] - LeCun表示Meta是其新公司的合作伙伴但并非投资者暗示项目范围可能超出Meta的兴趣 [1][36][38] - 媒体报道LeCun计划离职后 Meta股价下跌了2% 据此估计LeCun对Meta的价值约为300亿美元 [38] 技术路线分歧 - Yann LeCun认为大语言模型仅是“token生成器” 缺乏对物理世界的理解、记忆和多步推理能力几乎过时 [6] - LeCun指出大语言模型是自回归的属于System 1 没有真正推理不具备达到人类或狗类智能水平所需的四项能力 [6] - 他认为大语言模型像“黑洞”一样吸干了所有资源和关注导致其他AI研究领域寸草不生 [8] - 与此相对 Meta公司正投入数十亿美元重金招揽大语言模型专家甚至由CEO亲自参与挖角这被视作对LeCun技术路线的一种否定 [8][11] “世界模型”技术理念 - LeCun倡导的“世界模型”是一种基于视觉等感官信息训练的非生成式AI 旨在预测物理世界其理念可追溯至1943年的心理学概念 [3][12][14] - 他认为真正的智能需要构建“心理模型”或内部表征以进行规划、推理和与复杂环境交互而这大部分是通过观察和交互后天学来的 [21][22] - 过去10年 LeCun致力于此方向前5年探索后5年基于非生成式架构取得实质进展并发展出联合嵌入预测架构 [16][20][21] - 世界模型不仅预测下一帧视频更关键的是预测在不同动作下所有可能结果的分布因此需要大量交互数据而不仅是视频数据 [25][26] - LeCun用比喻说明差异：大语言模型像盲目滚下山的雪球而真正的智能应像能感知环境并规划路径的雪人 [27][29][30] 对当前AI发展的批判 - LeCun指出“莫拉维克悖论”依然存在：AI能在律师考试等抽象任务中表现出色但无法让机器人具备五岁孩子的行动能力 [20][21] - 他认为理解物理世界比理解语言更难文本只是对人类丰富感知的高度压缩和抽象描述无法涵盖大部分关于物理世界的直觉和心理模型 [20][32][35] - 人类思考依赖心理意象而非token 因此仅通过缩放语言模型无法产生真正的智能 [20][35] - 他批评硅谷完全被生成式模型迷住暗示其创业需在硅谷之外的非主流环境如巴黎进行 [38] 行业影响与现状 - 全球科技巨头正将数十亿美元投入大语言模型领域并相信缩放定律能支持其通向通用人工智能 [4] - 行业围绕大语言模型迅速形成“共识” 但AI领域最顶尖的科学家对其作为智能路径的根本问题仍存在深刻分歧 [40] - 对智能本质的探索尚无定论技术路径的竞争仍在继续 [40]

Meta Platforms(US:META)