LeCun炮轰Hinton:他认可LLM就是想摆烂退休了!

文章核心观点 - 图灵奖得主Yann LeCun认为大型语言模型不是通往人类水平智能或通用人工智能的正确路径,其根本缺陷在于缺乏预测行为后果和进行规划的能力,因此无法实现可靠的零样本任务解决[24][48][73] - LeCun主张并致力于开发基于联合嵌入预测架构的世界模型,该模型在抽象表征层面进行预测和规划,是未来智能系统的蓝图,预计将在未来五年内成为主导范式[20][45][92][95] - LeCun因Meta公司战略全面转向大型语言模型竞赛,导致探索性研究优先级降低,其世界模型项目缺乏合适的发展环境与应用场景,故而选择离开并创办新公司AMI[8][32][41][43] 对大型语言模型的看法与批评 - 根本性局限:大型语言模型仅是语言操作的有效工具,但无法处理高维、连续、有噪声的真实世界数据,不具备预测自身行为后果和真正规划的能力,因此不是通往人类或动物水平智能的路径[24][30][48][49] - 可靠性问题:大型语言模型本质上不可靠,无法完全消除幻觉或危险行为,因为其训练与测试误差之间存在固有差距,总存在某些提示会引发错误输出[145][170][187] - 数据效率低下:大型语言模型及其相关的模仿学习方法需要海量训练数据,但泛化能力有限,例如,拥有数百万小时数据仍无法实现L5级自动驾驶,而人类仅需十几二十小时就能学会[75][76] - 能力天花板:尽管在数学证明和代码生成等语言本身就是推理载体的领域表现出色,但大型语言模型缺乏创造性,无法提出新概念或成为软件架构师,其能力存在上限[128][129][131][143] 1. 数据耗尽:公开可用的高质量文本数据已耗尽,行业依赖购买商业版权或使用合成数据,限制了模型进一步扩展[124][125] 2. 安全与监管争议:不认同Anthropic等公司利用恐惧推动人工智能监管的做法,认为其夸大了末日风险[25][167] 世界模型与JEPA架构的愿景 - 核心定义:世界模型是智能体预测自身行为后果的能力,在此基础上通过优化和搜索进行规划,以完成新任务或达成目标,这是实现通用人工智能的关键[46][47][48] - JEPA架构优势:联合嵌入预测架构是一种非生成式方法,在抽象表征空间而非像素或标记空间进行预测,避免了生成像素的困难,是学习世界模型的有效框架[58][65][66][138] - 预期影响:基于JEPA的世界模型能实现高效的零样本任务解决,用更少的数据覆盖更广泛的任务谱,将彻底改变人工智能发展路径[71][73][95] 1. 应用前景:首要应用方向是“真实世界的人工智能”,包括家用机器人、L5自动驾驶,以及在工业领域(如复杂系统控制、医疗方案设计)有海量应用场景[83][87][90][188] 2. 发展时间表:预计到2027年初,大型语言模型的局限性将变得完全显而易见;JEPA类世界模型有望在五年内成为主导范式[100][92] 离开Meta的原因与行业趋势 - 战略分歧:Meta自2023年起将战略重心全面转向追赶大型语言模型竞赛,导致公司内部大量的探索性研究被降低优先级,创新环境发生变化[39][40][226] - 组织与文化变化:Meta为推进Llama等模型成立了Gen AI组织,该组织面临巨大的短期产品压力,变得保守,与研究部门出现断层,许多优秀人才流失[9][200][205][206] 1. 项目不适配:LeCun的世界模型研究在2024年初至2025年期间,已不符合Meta聚焦大型语言模型的新方向,且其大部分应用场景是Meta不感兴趣的工业领域[8][43][229] 2. 领导层变动影响:Scale AI的收购可能是Meta全面聚焦大型语言模型的催化剂之一,新任领导层可能影响了公司的技术方向[15][230] 3. 创新模式转变:行业整体趋势是研究越来越封闭,大公司对发表论文限制增多,短期导向加强,使得纯粹的突破性研究难以在大公司内进行[25][207][208] 对开源与未来生态的展望 - 开源必然性:类比Linux取代Windows NT成为互联网基础设施的历史,当前闭源的人工智能模型公司将是下一个Sun Microsystems,开源模式最终将胜出[117][121][122] - Tapestry项目:旨在通过联邦学习构建一个开放的全球模型,作为全世界知识和文化的存储库,允许各地区贡献者微调以适配本地语言、文化和价值观,对抗文化霸权[110][111][113] - 学术界建议:建议在读博士生不要研究当前的大型语言模型,因为这在学术界难以做出贡献,应致力于下一代人工智能系统的研究[25][211][214]

LeCun炮轰Hinton:他认可LLM就是想摆烂退休了! - Reportify