“今天的OpenAI，就是昨天的Sun！” 杨立昆最新长谈：像Linux击溃微软一样，开源AI终将统治世界

文章核心观点 - 当前主流的大型语言模型技术路线并非通向人类级或类人智能的道路，其根本缺陷在于缺乏预测行动后果、形成计划和建模真实物理世界的能力 [5][7] - 行业存在明显的“羊群效应”，几乎所有大公司都押注于同一种LLM技术范式，这导致高质量公共语料枯竭、训练成本暴涨、闭源加剧，技术边界日益清晰 [3][5][22] - 下一代人工智能的发展方向应是“世界模型”，其核心是让系统具备预测自身行动后果的能力，并通过规划与搜索来完成任务，这比当前依赖海量数据模仿学习的LLM路径数据效率更高，泛化能力更强 [12][13][19][20] - 联合嵌入预测架构是构建世界模型的关键技术路径，其通过在学习到的抽象表征空间中进行预测，避免了生成像素等低效方式，是比生成式架构更有效的学习世界表征的方法 [15][17][18] 对当前LLM技术范式的批判 - LLM是“有用的产品”，擅长处理语言、代码、数学等符号系统，但在处理高维、连续、充满噪声的真实物理世界时存在根本局限 [5][7][8] - LLM缺乏构成智能行为的关键特征：预测行动后果的能力，以及通过优化搜索进行规划的能力 [12][13] - LLM本质上是不安全且不可靠的，因其无法阻止幻觉，也无法保证其作为智能体时不会采取未预测到后果的行动 [49][50] - LLM的能力提升严重依赖为每个特定任务收集大量训练数据，数据效率低下，且无法实现可靠的零样本任务解决 [19][20][44] JEPA与世界模型的技术路径 1. 核心理念 - 世界模型的核心是让智能系统能够预测自身行动的后果，并据此进行规划以完成任务 [12][13] - 目标是构建“为真实世界打造的AI”，其学习速度应像人类一样高效，例如一个17岁青少年能在约20小时内学会开车 [20][21] 2. 技术优势 - 基于世界模型的系统泛化程度远高于模仿学习系统，能以更少的训练数据覆盖更广泛的任务，并有望实现零样本问题解决 [19][20] - 联合嵌入预测架构通过在学习到的抽象表征空间中进行预测，被证明是比预测原始像素更有效的学习图像和视频表征的方法 [17][18] 3. 应用前景 - 短期应用集中在工业领域，如复杂系统（喷气发动机、化工厂、生产线）的过程控制与优化，以及医疗保健领域的疗程设计等 [25][26][53] - 长期目标是实现家用机器人、L5级别自动驾驶汽车等通用具身智能应用 [25] 行业生态与公司战略 1. 行业趋势与问题 - 硅谷出现“羊群效应”，几乎所有公司都在追逐同一条LLM技术路线，导致创新同质化 [5][22] - 高质量公共文本数据已耗尽，公司转向授权商业版权数据或使用合成数据训练，加剧了闭源趋势 [38] - 大公司内部，短期产品化压力与竞争导致探索性长期研究失去优先级，研究和开发之间出现“阻抗失配” [9][10][58] 2. Meta案例与离职原因 - 公司在2023年将战略重心重新集中在LLM以追赶行业，导致许多探索性研究（如JEPA和世界模型）不再被赋予高优先级 [10] - 尽管高层支持，但公司中下层将精力全部集中于LLM，且JEPA技术的应用场景多属Meta不感兴趣的工业领域，因此不再是推进该研究的合适环境 [8][10][67] - 对Llama系列没有技术贡献，主要贡献在于力排众议推动了Llama 2的开源，以启动整个AI行业 [70] 3. 开放与闭源之争 - 闭源模型公司（如OpenAI、Anthropic）被类比为过去的Sun Microsystems等专有系统巨头，而开源力量最终可能像Linux一样抹平专有优势 [37][38] - Tapestry项目旨在通过联邦式协作，让美国和中国之外的国家共同训练一个开放的全球基础模型，各国可在其上基于自身文化、语言和价值体系进行微调，以实现AI主权 [34][35][36] 对研究社区的建议与展望 - 建议在读博士生不要研究当前的LLM，因为难以做出贡献，而应致力于研究下一代AI系统 [61][63] - 取得突破性研究的最佳方法是雇佣最优秀的人才，给予资源，然后不加以干涉 [60] - 预测到2027年初，行业将普遍认识到需要改变现有技术范式 [30] - 未来智能系统的蓝图将是具备世界模型的、能够思考的系统，LLM将主要作为语言接口存在 [29]