AI"教父"放狠话，大语言模型走不通

文章核心观点 - 人工智能领域先驱杨立昆因与Meta在技术路线和公司战略上存在根本分歧而离职其认为大语言模型无法实现超级智能并计划创办新公司推进其“世界模型”架构以实现高级机器智能 [8][9][18][21][95][96][98] - ChatGPT的发布打乱了Meta的阵脚公司转向全力开发大语言模型Llama 但后续版本表现不佳及数据操纵丑闻导致内部重组并引入年轻高管这加剧了与坚持开放研究路线的LeCun之间的冲突 [70][72][73][82][84][86][89][90] - 杨立昆倡导的“世界模型”技术路线旨在让AI通过视频学习理解物理世界具备规划、推理和记忆能力他认为这是实现超级智能的正确路径并预计相关技术将在短期内取得可见进展 [22][23][24][25][102][104][105] 杨立昆的职业轨迹与成就 - 作为深度学习奠基人之一与Geoffrey Hinton和Yoshua Bengio共同获得2018年图灵奖 [44][45] - 在AT&T贝尔实验室期间开发了卷积神经网络该技术后被广泛应用于图像识别和银行支票读取系统 [51][52] - 2013年应扎克伯格邀请加入Facebook 主导创建了Facebook人工智能研究院并保留了在纽约大学的职位且无需搬迁其研究成果坚持公开 [63][65][66][67] Meta内部AI战略的演变与动荡 - ChatGPT发布后 Meta决定全力开发大语言模型Llama 并通过发布开放权重的Llama 2试图改变行业格局 [73][74][75][76] - 2025年4月发布的Llama 4被指控操纵测试数据以美化结果导致扎克伯格对团队失去信心生成式AI部门被边缘化人员流失严重 [82][83][84] - 2024年6月 Meta投资150亿美元于数据标注公司Scale AI 并聘请其28岁的联合创始人Alexandr Wang来领导新的AI研究部门TBD实验室 [85][86] - 公司试图以1亿美元签约费从竞争对手处挖角顶尖研究员这一激进策略的效果存疑 [87][88] 技术路线分歧：大语言模型 vs 世界模型 - 杨立昆认为大语言模型本质受限于语言无法达到理解物理世界的人类水平智能因而不是实现超级智能的路径 [21][22] - 他提出的替代方案是V-JEPA“世界模型”架构通过视频和空间数据学习使AI具备理解物理世界、规划、推理和持久记忆的能力即高级机器智能 [23][24][25] - 他认为Meta新招募的专注于超级智能的团队“完全被大语言模型洗脑了” 这导致他在公司内部政治上处境困难 [96][97] 杨立昆的离职与新事业规划 - 离职的直接原因包括与公司新战略和管理层（如年轻且无研究经验的新上司）的不合以及其研究兴趣与Meta商业重点的错位 [89][90][95][99] - 他计划创办新公司并担任执行主席以推进其世界模型和高级机器智能的研究并已获得投资人关注 [9][14][100] - 他认为由OpenAI前高管创立的“Thinking Machines”和“Safe Superintelligence”等新型基础研究创业公司代表了行业新趋势 [101] - 预计其世界模型技术的“婴儿版”将在12个月内面世更大规模版本则在几年内 [104]