LLM
搜索文档
“今天的OpenAI,就是昨天的Sun!” 杨立昆最新长谈:像Linux击溃微软一样,开源AI终将统治世界
AI科技大本营· 2026-05-18 20:09
文章核心观点 - 当前主流的大型语言模型技术路线并非通向人类级或类人智能的道路,其根本缺陷在于缺乏预测行动后果、形成计划和建模真实物理世界的能力 [5][7] - 行业存在明显的“羊群效应”,几乎所有大公司都押注于同一种LLM技术范式,这导致高质量公共语料枯竭、训练成本暴涨、闭源加剧,技术边界日益清晰 [3][5][22] - 下一代人工智能的发展方向应是“世界模型”,其核心是让系统具备预测自身行动后果的能力,并通过规划与搜索来完成任务,这比当前依赖海量数据模仿学习的LLM路径数据效率更高,泛化能力更强 [12][13][19][20] - 联合嵌入预测架构是构建世界模型的关键技术路径,其通过在学习到的抽象表征空间中进行预测,避免了生成像素等低效方式,是比生成式架构更有效的学习世界表征的方法 [15][17][18] 对当前LLM技术范式的批判 - LLM是“有用的产品”,擅长处理语言、代码、数学等符号系统,但在处理高维、连续、充满噪声的真实物理世界时存在根本局限 [5][7][8] - LLM缺乏构成智能行为的关键特征:预测行动后果的能力,以及通过优化搜索进行规划的能力 [12][13] - LLM本质上是不安全且不可靠的,因其无法阻止幻觉,也无法保证其作为智能体时不会采取未预测到后果的行动 [49][50] - LLM的能力提升严重依赖为每个特定任务收集大量训练数据,数据效率低下,且无法实现可靠的零样本任务解决 [19][20][44] JEPA与世界模型的技术路径 1. **核心理念** - 世界模型的核心是让智能系统能够预测自身行动的后果,并据此进行规划以完成任务 [12][13] - 目标是构建“为真实世界打造的AI”,其学习速度应像人类一样高效,例如一个17岁青少年能在约20小时内学会开车 [20][21] 2. **技术优势** - 基于世界模型的系统泛化程度远高于模仿学习系统,能以更少的训练数据覆盖更广泛的任务,并有望实现零样本问题解决 [19][20] - 联合嵌入预测架构通过在学习到的抽象表征空间中进行预测,被证明是比预测原始像素更有效的学习图像和视频表征的方法 [17][18] 3. **应用前景** - 短期应用集中在工业领域,如复杂系统(喷气发动机、化工厂、生产线)的过程控制与优化,以及医疗保健领域的疗程设计等 [25][26][53] - 长期目标是实现家用机器人、L5级别自动驾驶汽车等通用具身智能应用 [25] 行业生态与公司战略 1. **行业趋势与问题** - 硅谷出现“羊群效应”,几乎所有公司都在追逐同一条LLM技术路线,导致创新同质化 [5][22] - 高质量公共文本数据已耗尽,公司转向授权商业版权数据或使用合成数据训练,加剧了闭源趋势 [38] - 大公司内部,短期产品化压力与竞争导致探索性长期研究失去优先级,研究和开发之间出现“阻抗失配” [9][10][58] 2. **Meta案例与离职原因** - 公司在2023年将战略重心重新集中在LLM以追赶行业,导致许多探索性研究(如JEPA和世界模型)不再被赋予高优先级 [10] - 尽管高层支持,但公司中下层将精力全部集中于LLM,且JEPA技术的应用场景多属Meta不感兴趣的工业领域,因此不再是推进该研究的合适环境 [8][10][67] - 对Llama系列没有技术贡献,主要贡献在于力排众议推动了Llama 2的开源,以启动整个AI行业 [70] 3. **开放与闭源之争** - 闭源模型公司(如OpenAI、Anthropic)被类比为过去的Sun Microsystems等专有系统巨头,而开源力量最终可能像Linux一样抹平专有优势 [37][38] - Tapestry项目旨在通过联邦式协作,让美国和中国之外的国家共同训练一个开放的全球基础模型,各国可在其上基于自身文化、语言和价值体系进行微调,以实现AI主权 [34][35][36] 对研究社区的建议与展望 - 建议在读博士生不要研究当前的LLM,因为难以做出贡献,而应致力于研究下一代AI系统 [61][63] - 取得突破性研究的最佳方法是雇佣最优秀的人才,给予资源,然后不加以干涉 [60] - 预测到2027年初,行业将普遍认识到需要改变现有技术范式 [30] - 未来智能系统的蓝图将是具备世界模型的、能够思考的系统,LLM将主要作为语言接口存在 [29]
LeCun炮轰Hinton:他认可LLM就是想摆烂退休了!
量子位· 2026-05-18 12:16
文章核心观点 - 图灵奖得主Yann LeCun认为大型语言模型不是通往人类水平智能或通用人工智能的正确路径,其根本缺陷在于缺乏预测行为后果和进行规划的能力,因此无法实现可靠的零样本任务解决[24][48][73] - LeCun主张并致力于开发基于联合嵌入预测架构的世界模型,该模型在抽象表征层面进行预测和规划,是未来智能系统的蓝图,预计将在未来五年内成为主导范式[20][45][92][95] - LeCun因Meta公司战略全面转向大型语言模型竞赛,导致探索性研究优先级降低,其世界模型项目缺乏合适的发展环境与应用场景,故而选择离开并创办新公司AMI[8][32][41][43] 对大型语言模型的看法与批评 - **根本性局限**:大型语言模型仅是语言操作的有效工具,但无法处理高维、连续、有噪声的真实世界数据,不具备预测自身行为后果和真正规划的能力,因此不是通往人类或动物水平智能的路径[24][30][48][49] - **可靠性问题**:大型语言模型本质上不可靠,无法完全消除幻觉或危险行为,因为其训练与测试误差之间存在固有差距,总存在某些提示会引发错误输出[145][170][187] - **数据效率低下**:大型语言模型及其相关的模仿学习方法需要海量训练数据,但泛化能力有限,例如,拥有数百万小时数据仍无法实现L5级自动驾驶,而人类仅需十几二十小时就能学会[75][76] - **能力天花板**:尽管在数学证明和代码生成等语言本身就是推理载体的领域表现出色,但大型语言模型缺乏创造性,无法提出新概念或成为软件架构师,其能力存在上限[128][129][131][143] 1. **数据耗尽**:公开可用的高质量文本数据已耗尽,行业依赖购买商业版权或使用合成数据,限制了模型进一步扩展[124][125] 2. **安全与监管争议**:不认同Anthropic等公司利用恐惧推动人工智能监管的做法,认为其夸大了末日风险[25][167] 世界模型与JEPA架构的愿景 - **核心定义**:世界模型是智能体预测自身行为后果的能力,在此基础上通过优化和搜索进行规划,以完成新任务或达成目标,这是实现通用人工智能的关键[46][47][48] - **JEPA架构优势**:联合嵌入预测架构是一种非生成式方法,在抽象表征空间而非像素或标记空间进行预测,避免了生成像素的困难,是学习世界模型的有效框架[58][65][66][138] - **预期影响**:基于JEPA的世界模型能实现高效的零样本任务解决,用更少的数据覆盖更广泛的任务谱,将彻底改变人工智能发展路径[71][73][95] 1. **应用前景**:首要应用方向是“真实世界的人工智能”,包括家用机器人、L5自动驾驶,以及在工业领域(如复杂系统控制、医疗方案设计)有海量应用场景[83][87][90][188] 2. **发展时间表**:预计到2027年初,大型语言模型的局限性将变得完全显而易见;JEPA类世界模型有望在五年内成为主导范式[100][92] 离开Meta的原因与行业趋势 - **战略分歧**:Meta自2023年起将战略重心全面转向追赶大型语言模型竞赛,导致公司内部大量的探索性研究被降低优先级,创新环境发生变化[39][40][226] - **组织与文化变化**:Meta为推进Llama等模型成立了Gen AI组织,该组织面临巨大的短期产品压力,变得保守,与研究部门出现断层,许多优秀人才流失[9][200][205][206] 1. **项目不适配**:LeCun的世界模型研究在2024年初至2025年期间,已不符合Meta聚焦大型语言模型的新方向,且其大部分应用场景是Meta不感兴趣的工业领域[8][43][229] 2. **领导层变动影响**:Scale AI的收购可能是Meta全面聚焦大型语言模型的催化剂之一,新任领导层可能影响了公司的技术方向[15][230] 3. **创新模式转变**:行业整体趋势是研究越来越封闭,大公司对发表论文限制增多,短期导向加强,使得纯粹的突破性研究难以在大公司内进行[25][207][208] 对开源与未来生态的展望 - **开源必然性**:类比Linux取代Windows NT成为互联网基础设施的历史,当前闭源的人工智能模型公司将是下一个Sun Microsystems,开源模式最终将胜出[117][121][122] - **Tapestry项目**:旨在通过联邦学习构建一个开放的全球模型,作为全世界知识和文化的存储库,允许各地区贡献者微调以适配本地语言、文化和价值观,对抗文化霸权[110][111][113] - **学术界建议**:建议在读博士生不要研究当前的大型语言模型,因为这在学术界难以做出贡献,应致力于下一代人工智能系统的研究[25][211][214]