Workflow
世界模型
icon
搜索文档
李飞飞长文火爆硅谷
投资界· 2025-11-14 16:01
文章核心观点 - 空间智能是人工智能发展的下一个前沿领域,将推动大语言模型实现下一次质的飞跃 [4][6] - 构建具备空间智能的“世界模型”是解锁AI在创造力、机器人、科学、医疗和教育等领域潜力的关键技术路径 [8][16][18] - 世界模型需具备生成性、多模态和交互性三大核心能力,其技术挑战远超以往,但应用前景将深刻重塑人类与物理及虚拟世界的交互方式 [4][18][21] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,支撑着从日常动作到科学发现等一系列与物理世界互动的基础能力 [11][14] - 当前AI(如多模态大语言模型)的空间能力远未接近人类水平,在估计距离、方向、大小及预测物理规律等任务上存在根本性局限 [14][15] - 缺乏空间智能导致AI与物理现实脱节,无法安全驾驶汽车、引导家庭与医院中的机器人,或创造全新的沉浸式学习与娱乐体验 [16] 世界模型的核心能力与技术挑战 - 生成性:模型需能生成遵守物理定律、空间一致的虚拟世界,并保持世界状态的连贯性 [4][18][19] - 多模态:模型需能处理从图像、视频、深度图到文本指令、手势、动作等多种形式的输入 [4][19][20] - 交互性:模型需能根据输入的动作或目标,预测并输出世界的下一个状态 [4][20] - 技术挑战规模超越以往,需克服在通用训练任务函数、大规模多模态训练数据以及新型模型架构与表征学习等方面的巨大壁垒 [21][22][23] 世界模型的应用潜力 - 创造力:赋能电影人、游戏设计师、建筑师等创作者快速构建、迭代和探索三维世界,变革叙事与沉浸体验 [26][28][29] - 机器人:通过生成高质量仿真数据,扩展机器人学习,实现具备空间感知能力的人机协作伙伴及多样化的具身形态 [30][31][32] - 科学、医疗与教育:在科学研究中模拟实验、在医疗领域加速药物研发与辅助诊断、在教育领域实现沉浸式学习,增强人类专长与发现能力 [33][34][35] 行业发展趋势与公司进展 - World Labs公司成立于2024年初,致力于世界模型的基础性突破,其开发的Marble平台是全球首个可通过多模态输入生成一致性3D环境的世界模型 [8][23][26] - 行业共识认为,下一代世界模型将使机器在空间智能上达到新层次,开启AI理解与创造世界的时代,需要整个AI生态系统的集体努力 [24][26][27]
“读万卷书”不如“行万里路”!芯原股份掌舵人戴伟民详解AI芯片下一站:端侧推理与场景落地
新浪证券· 2025-11-14 12:08
行业趋势:AI芯片市场发展 - AI定制化芯片(AI ASIC)需求正显著增长 [1] - GPU与AI ASIC是相辅相成的关系,GPU侧重通用灵活部署,AI ASIC侧重极致性价比 [3] - AI模型持续演进和更新,对算力提出了全新、多样化的要求 [4] 技术演进:AI发展路径 - AI发展需从“读万卷书”(大语言模型训练)跃迁至构建理解人类情感和复杂场景的“世界模型” [4] - 未来AI需要处理空间、物理和上下文信息,进行真正的“思考” [4] - 端侧主要进行推理和微调两种AI计算工作 [5] 市场机遇:端侧AI潜力 - 端侧推理崛起,在手机、汽车、智能眼镜、物联网设备等终端上进行模型推理和微调是未来AI落地和商业化关键 [5] - 端侧智能将成为比云端训练更大的市场机遇,是下一个万亿级黄金赛道 [8] - 端侧应用的核心在于可“离线”执行,体验更流畅自然且注重隐私和安全 [7] 公司战略:芯原股份布局 - 公司在AI加速处理器(如GPU、GPGPU、ASIC)上均有布局,可为不同应用场景定制芯片 [3] - 公司核心战略是依托半导体IP储备和芯片设计服务能力,为端侧革命提供AI ASIC解决方案 [8] - 公司看好AI在智能眼镜上的应用,认为这是一个潜在的增量市场,可实现实时离线语音翻译和场景交互 [7] 应用场景:端侧AI实践 - 在智能手机上,通过AI相关定制芯片可实现远超当前的拍照效果、画质优化和功耗控制 [7] - AI玩具是教育领域的重要颠覆,可通过搭载小模型根据孩子所见所闻即时生成故事并模仿父母声音讲述 [7] - 智能眼镜、AI玩具等端侧应用蕴藏巨大商机 [6][7]
LeCun在Meta的最后一篇论文
36氪· 2025-11-14 11:04
LeJEPA方法核心创新 - 提出潜在欧几里得联合嵌入预测架构(LeJEPA),通过使嵌入空间遵循特定统计分布来提升预测性能[2] - 核心创新是草图化各向同性高斯正则化(SIGReg),这是一种可处理、可证明正确的正则化方法,通过单变量方向检验结合Epps-Pulley测试判断嵌入分布匹配程度[6] - 研究表明各向同性高斯分布是嵌入空间的最佳分布,可在没有任务信息情况下保证最小化偏差和方差,提高下游任务表现[5] 技术优势与实验验证 - 等向高斯分布能够最小化训练过程中的偏差和方差,在总方差相同情况下,非等向分布会导致更高偏差和方差[3] - 在ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等大型架构上进行实验,模型规模接近10亿参数[8] - 实验显示LeJEPA在这些架构上表现超越现有方法,在Galaxy10、Food101等特定领域数据集上直接预训练时超越了基于DINOv2的迁移学习方法[10] JEPA架构发展历程 - JEPA(联合嵌入预测架构)是自监督学习框架,旨在通过嵌入空间联合预测方法提升模型表达和推理能力,与生成式模型不同,仅捕捉依赖关系而不显式生成预测[16] - JEPA可进一步通过分层架构(H-JEPA)增强抽象能力,低层处理短期预测,高层用于长期预测,提高可预测性和减少信息损失[18] - JEPA架构与世界模型密切相关,通过学习状态与动作转移训练世界模型,从当前状态表示推断未来状态表示[20] JEPA系列模型演进 - I-JEPA充分利用Transformer架构灵活性,上下文编码器是ViT仅处理可见上下文块,预测器根据位置标记预测特定位置目标块表示[24] - V-JEPA是I-JEPA在视频领域扩展,将视频视为3D图像,通过屏蔽视频序列token进行训练,V-JEPA 2进一步提升了动作预测和世界建模能力[26][28] - MC-JEPA是JEPA扩展,使其包含运动信息,在视频中使用光流估计学习运动,通过图像视角联合嵌入学习内容,以多任务方式共享编码器[30] 行业影响与人物动态 - LeCun在Meta期间个人被引次数大幅增长至406,919次,占总引用数的93%,深度学习爆发期个人学术影响力显著提升[37] - LeCun已离开Meta并筹集资金创办初创公司,继续推进在世界模型方面的工作,尽管面临从学术研究向商业环境转型的挑战[33] - LeCun2013年加入Meta后推动了公司AI转型,成为行业金字招牌,Meta也为其提供了自由的研究环境,这段合作促进了整个AI领域发展[40]
王振辉接替胡伟出任京东物流CEO;滴滴自动驾驶出海首站落地阿布扎比 | 早资道
搜狐财经· 2025-11-14 09:12
京东物流管理层变动 - 京东物流首席执行官及执行董事职务由王振辉接替胡伟 [2] - 此项人事变动自2025年11月13日起生效 [2] - 胡伟辞任原因为将于京东集团担任其他职务 [2] 滴滴自动驾驶业务拓展 - 滴滴自动驾驶与阿布扎比投资办公室达成战略合作 正式加入阿布扎比智能和自动驾驶汽车产业集群SAVI [3] - 合作内容涵盖自动驾驶技术创新应用 AI人才培养及生态建设 [3] - 该合作是滴滴自动驾驶全球化布局的首站 计划逐步拓展至整个中东地区 [3] 阿里云大模型服务定价调整 - 阿里云大模型服务平台百炼对通义千问3-Max模型实行降价 [4] - 降价措施包括batch调用半价 隐式缓存命中部分按输入Token标准单价的20%计费 [4] - 显式缓存创建Token按输入Token标准单价的125%计费 后续命中仅支付10%费用 [4] 腾讯与苹果合作动态 - 腾讯总裁刘炽平在财报电话会回应与苹果就微信小游戏收费事宜的讨论 [5] - 腾讯与苹果关系良好 双方一直在讨论如何使小游戏生态更活跃 [5] - 腾讯表示未来可能会有关于小游戏收费的正式批准 [5] 人工智能技术产品发布 - 李飞飞教授创业公司World Labs推出首款商用世界模型Marble [6] - Marble支持大规模多模态 可从文本图像视频或粗略3D布局创建3D世界 [6] - Marble允许用户交互式地编辑扩展和组合世界 [6]
港科大等团队提出WMPO:基于世界模型的VLA策略优化框架
具身智能之心· 2025-11-14 09:02
文章核心观点 - 香港科技大学与字节跳动Seed团队联合提出WMPO框架,通过像素级视频生成世界模型实现VLA模型的无真实环境交互on-policy强化学习 [1] - WMPO框架显著提升机器人操作的样本效率、任务性能、泛化能力与终身学习能力,并涌现出自修正等高级行为 [1] 研究背景与核心痛点 - VLA模型是通用机器人操作的关键范式,但主流模仿学习范式面对训练中未见过的分布外状态时易出错,且无法从失败中学习和自修正 [6] - 强化学习直接应用于真实机器人时样本效率极低,需数百万次交互,既不切实际也存在安全风险 [6] - 现有解决方案难以兼顾规模化与有效性:人类干预引导学习需持续监督,难以扩展;仿真器适配多样场景成本高;传统潜在空间世界模型与VLA的web-scale预训练视觉特征存在天然错位 [4] 核心框架设计 - WMPO核心逻辑是将VLA策略优化完全置于“想象”空间,基于高保真像素级世界模型生成轨迹替代真实环境交互,支持更强的on-policy强化学习 [5] - 整体流程遵循“想象轨迹生成→轨迹采样评估→策略更新”的迭代循环 [5] - 生成式世界模型核心作用是仿真机器人与环境的动态变化,生成与VLA预训练特征对齐的视觉轨迹 [8] - 轻量级奖励模型核心作用是自动判断想象轨迹的任务成败,提供稀疏奖励信号,避免复杂奖励塑造 [9] - 选择Group Relative Policy Optimization作为优化算法,适配稀疏奖励场景,兼顾稳定性与扩展性,采用无KL正则化设计以减少内存消耗并鼓励策略探索 [10] 核心技术创新 - 采用像素空间优先设计,摒弃传统潜在空间世界模型,直接在像素空间生成轨迹以完美匹配VLA的预训练视觉特征 [11] - 基于OpenSora的视频扩散骨干网络,将3D VAE替换为SDXL的2D VAE以更好保留细粒度运动细节,扩散过程在VAE潜在空间进行,优化时解码回像素空间 [12] - 通过策略自身收集的真实轨迹微调世界模型,解决专家演示与策略实际行为的分布错位问题 [12][18] - 引入噪声帧条件和帧级动作控制技术,实现数百帧无质量损失的轨迹生成,突破长horizon视频生成的瓶颈 [12][18] - 实现无真实交互的on-policy强化学习,依托世界模型进行大规模轨迹采样,规避真实环境的高成本 [18] 实验验证与性能结果 - 在仿真环境Mimicgen平台的4个精细操作任务中,WMPO表现均优于GRPO、DPO等基线方法 [13] - 当交互预算为128时,WMPO平均成功率达47.1%,超出最强基线9.8个百分点;预算提升至1280时,平均成功率达57.6%,优势扩大至15.2个百分点,样本效率突出 [14] - 在真实环境Cobot Mobile ALOHA平台的“方块插入杆子”任务中,WMPO成功率70%,显著高于基础策略的53%和DPO的60% [15] - 在空间扰动、背景替换、纹理替换三种分布外场景中,WMPO平均成功率29.6%,优于所有基线,证明其学习的是通用操作技能而非虚假视觉线索 [19][20] - 成功轨迹长度显著短于基线,动作更流畅,避免“卡壳”现象 [22] - 在终身学习测试中,迭代收集128条轨迹进行优化,性能持续稳定提升,而DPO训练不稳定且无法实现迭代改进 [23] 涌现行为与框架意义 - 框架涌现出自修正能力,面对碰撞等失败状态能自主调整动作,而基线策略会持续错误动作直至超时 [17] - WMPO构建了“世界模型+on-policy强化学习”的VLA优化新范式,解决了真实环境交互成本高、样本效率低的行业痛点 [25] - 该框架为通用机器人操作的规模化落地提供了可行路径,未来可扩展至流基策略以适配更多动作空间类型 [25]
一句话,就能创造出随便乱逛的3D世界!
自动驾驶之心· 2025-11-14 08:04
产品发布与定位 - WorldLabs公司正式推出名为Marble的生成式世界模型产品,该产品面向全球用户开放使用[2][7] - Marble是新一代世界模型,能够通过单张图片或简短文字提示创建完整的3D世界[41] - 该产品与公司自家实时模型RTFM的区别在于能创建持久化、可下载的3D环境,而非实时生成世界[28] - 产品定位为AI原生编辑工具,提供混合3D编辑器功能,用户可先构建空间结构框架再由AI填充细节[31] 技术功能特点 - 模型支持多模态输入,包括2D图片、3D模型(需付费)、文本提示、多图像和短视频,可生成多种场景类型与艺术风格的3D世界[16][42][48] - 内置AI原生编辑工具,支持局部物体移除、区域修饰、风格替换和结构重构等精细操作[50] - 推出Chisel功能,允许用户在三维空间中直接雕琢世界布局,实现对物体尺寸和位置的精确控制[55] - 导出选项包括高斯溅射点(最高保真度)、三角网格模型(含低精度碰撞体网格)和视频格式,支持与THREE.js等行业标准工具集成[58][60][65] 产品发展历程 - 模型两个月前以限量测试版亮相,此次为正式上线[28] - 去年十二月公司展示的早期模型仅能通过单张图像生成交互式3D场景,且移动范围受限并存在渲染错误[32][33] - 当前版本实现重大突破,生成内容可任意旋转镜头、放大缩小,效果逼真度显著提升[14][34] 商业模式与定价 - 采用分级订阅制,免费版可生成4个世界,标准版月费20美元(首月1美元),专业版月费95美元可生成75个世界[83][84][85] - 付费功能包括3D模型上传、多图像/视频输入、世界编辑和高质量网格导出等[29][88] - 商业权利仅向标准版及以上用户开放,高阶版本提供更多积分和生成次数[88] 行业影响与愿景 - 产品发布契合李飞飞提出的"空间智能"概念,被视为AI下一个十年的关键发展方向[5][71] - 世界模型被定义为具备多模态能力,能整合视觉、听觉、触觉与语言信号构建三维世界[36][38] - 未来重点将聚焦交互性突破,为仿真、机器人技术等领域解锁新应用场景[69][70]
不用术语看懂世界模型:从日常预测到自动驾驶
自动驾驶之心· 2025-11-14 08:04
世界模型核心定义 - 世界模型的本质是根据已感知的过去信息(如图像、声音、速度、距离)来预测未来的信息,核心逻辑是“输入过去,输出未来”[2][3] - 该模型在自动驾驶和具身智能中至关重要,使系统能基于预判提前采取行动,而非被动反应,这与人类行为模式一致[4] - 预测基于从海量数据中总结的规律,而非随机猜测,例如“刹车灯亮预示前车减速”[4] 世界模型与神经网络关系 - 神经网络是实现世界模型的工具,擅长模仿和识别特定模式,但缺乏直接预判和理解能力[5][6] - 世界模型利用神经网络处理具体信息,并在此基础上进行场景规律的预判,如同导演指挥演员[8][10] - 没有世界模型,神经网络只能模仿而不会思考未来;没有神经网络,世界模型无法处理具体信息[10] 特型世界模型分类 - 不存在“全能”世界模型,因不同场景规律差异大且预判需求不同,现实中均为专注特定领域的特型模型[11][12] - 视频生成世界模型专注于视觉连续性和动作合理性的预测,如生成画画的后续过程[12] - 音乐生成世界模型依据乐理规则和风格统一性预测音符组合[14] - 游戏世界模型预测游戏下一状态,基于游戏规则和玩家行为习惯[14] - 工业生产世界模型预测生产流程步骤,遵循工艺和物理化学规则[14] 自动驾驶世界模型 - 自动驾驶世界模型是最严格的特型模型,要求毫秒级响应和接近100%的准确率,直接关系生命安全[18][22] - 核心工作是整合传感器数据(如车速、车距、交通灯状态),预测路况的下一秒变化,例如前车减速或行人横穿[19][21] - VLA模型是自动驾驶世界模型的增强版,在路况预测基础上融入语言逻辑,使预测更贴合用户指令和交通规则[23][26][27] - VLA模型与普通自动驾驶世界模型的关键区别在于其内在规律部分来源于语言规则,而后者主要依赖路况数据[26][27] 应用价值与发展方向 - 世界模型的核心价值在于帮助应对未知,通过规律预测最可能的结果,使系统能提前准备,如规避车祸风险[29] - 未来发展方向是更专业化而非全能化,在细分场景提升预测准确率和速度,并结合更多信息源(如语言)[29] - 该技术是AI从模仿走向思考决策的关键一步,其强大之处在于专业化的预判能力[29][30]
LeCun在Meta的最后一篇论文
量子位· 2025-11-13 19:52
论文核心观点 - 论文提出了一种名为LeJEPA的新型自监督学习方法,其核心是通过引入SIGReg正则化,使嵌入空间遵循各向同性高斯分布,从而有效解决表示崩溃问题并提升模型泛化能力[5][6] - LeJEPA是Yann LeCun在Meta任职期间以Meta身份发表的最后一篇公开研究成果,于11月11日在arXiv提交,被视为他在Meta的告别之作[2][4][69] 技术原理与创新 - 传统JEPA框架面临表示崩溃问题,即模型将所有输入映射到单一低维空间,导致嵌入空间样本不可区分[6] - LeJEPA通过最小二乘回归分析表明,各向同性高斯分布能够最小化训练过程中的偏差和方差,在总方差相同的情况下,非等向分布会导致更高偏差和方差[8][9] - 研究提出的SIGReg正则化方法将分布匹配转化为统计假设检验,通过Epps-Pulley测试判断嵌入分布与目标分布的匹配程度[15][16][17] - SIGReg通过两条机制解决高维计算挑战:嵌入函数的Sobolev平滑性保证仅需O(K)个方向切片即可约束整个空间;SGD迭代特性使方向数量很少时也能快速收敛[21][22] 实验验证结果 - 实验在ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等多种大型架构上进行,模型规模接近10亿参数[20] - LeJEPA在这些架构上表现超越现有方法,保持了训练的简便性和鲁棒性[23] - 在领域特定数据集如Galaxy10、Food101上,LeJEPA在直接目标数据预训练时超越了基于DINOv2的迁移学习方法[24] JEPA架构发展历程 - JEPA是LeCun于2022年提出的自监督学习框架,旨在通过嵌入空间的联合预测提升模型表达和推理能力[28][31] - 与生成式模型不同,JEPA仅捕捉x和y之间的依赖关系而不显式生成y的预测[32] - JEPA可通过分层架构增强抽象能力,低层处理短期预测,高层用于长期预测,提高可预测性和减少信息损失[34][35][36] - JEPA架构发展三年来已产生多个变体:I-JEPA充分利用Transformer架构灵活性处理图像[43][45];V-JEPA将其扩展至视频领域[49][51];V-JEPA 2进一步提升了动作预测和世界建模能力[58][60];MC-JEPA使其能够包含运动信息[61][63] 行业影响与人物背景 - LeCun自2013年加入Meta以来个人被引次数飙升,达到406919次,占总数的93%,其中与三巨头合写的《深度学习》综述贡献超10万次[77][78] - 尽管JEPA架构提供新路径,但毁誉参半,被批评过于抽象难以应用到主流模型,与生成式AI的背离也被部分人归咎于Meta的AI研究失利[67][68] - LeCun已开始筹集资金创办初创公司继续推进世界模型工作,但其过于学术的风格在商业世界的适应性受到关注[72][73]
李飞飞的世界模型来了,一句话生成3D世界,AI 真的开始理解现实了
36氪· 2025-11-13 19:42
产品发布与核心能力 - 斯坦福教授李飞飞的创业公司World Labs正式推出首款世界模型产品Marble,这是该方向首次以可用产品形式出现 [1] - Marble具备多模态生成能力,可根据一张图片、一段视频或一句文字提示,重建出结构完整、细节丰富的3D世界 [1] - 产品拥有AI原生的世界编辑能力,允许用户对生成的世界进行局部替换、材质变化、光照调整或布局重构 [1] - 支持将生成的世界导出为高斯溅射、三角网格或视频格式,可直接接入Unreal、Unity、Blender等主流创作工具 [1] 技术特点与工作流程 - 支持从文本提示生成3D世界,系统能自动提取关键元素并在几秒钟内生成可漫游的三维空间 [7] - 支持单图生成,能根据照片的透视关系、光线方向和物体摆放方式,将场景自动补齐成可漫游的3D世界 [9] - 提供Chisel工具,允许进阶创作者先搭建粗略的3D框架,再通过文本提示控制最终呈现的风格与氛围 [11] - 将空间逻辑与视觉风格明确区分,同一三维框架可衍生出完全不同的世界 [12] 编辑与扩展功能 - 产品允许用户像处理真实场景一样对生成的三维世界进行删除物体、替换材质、改变光线等调整 [13] - 用户可对初始世界的任意区域进行扩展,系统会根据已有场景逻辑推演并补全环境细节 [13] - 提供“组合模式”,允许将多个独立生成的世界像拼接地图一样组合,以构建规模庞大、层次丰富的虚拟环境 [14] 行业应用与集成 - 支持将场景导出为高斯粒子渲染和三角网格等通用格式,可无缝进入Blender、Maya、Unity、Unreal等主流制作工具 [15][17] - 导出的高质量网格适合用于游戏关卡、动画镜头或建筑展示,碰撞网格则用于物理模拟和机器人路径规划 [16][17] - 支持将整个世界直接渲染成视频,并可进行增强处理,自动补上细腻细节并加入动态效果 [18] 战略意义与未来展望 - Marble的发布象征着空间智能时代的正式开场,其意义远不止让3D创作更方便,而是迈向创造真正具有空间智能的世界模型的第一步 [1][2] - 产品让外界首次清晰感受到AI有可能从理解图像和语言,迈向理解并操控一个由结构、物理与动态规律构成的完整世界 [3] - 未来应用方向包括帮助机器人理解现实环境,以及在科学研究中用于虚拟实验和预测结果 [2][27] - 世界模型需具备生成性、多模态性和交互性三种核心能力,其技术门槛远高于语言模型 [22][23][24][25][26]
AI界巨震!图灵奖得主Yann LeCun即将离职Meta,投身「世界模型」创业
机器人圈· 2025-11-13 18:40
核心事件概述 - AI领域权威专家、图灵奖得主、Meta首席AI科学家扬·勒昆决定在未来几个月内离职,结束其在Meta长达12年的职业生涯 [2] - 此次离职被视为与CEO马克·扎克伯格在AI战略上的正式决裂,勒昆将开启创业生涯,全力押注下一代AI架构「世界模型」 [2] 离职背景与Meta内部战略分歧 - 离职根源在于与Meta管理层在AI发展路线图与公司战略上日益加剧的分歧 [3] - 因旗下大模型Llama 4表现未达预期及Meta AI聊天机器人市场反响平平,公司认定在竞争中处于落后状态,战略从长期前沿基础研究转向敏捷开发 [4] - Meta进行内部架构调整,以高达1亿美元的薪酬包从谷歌、OpenAI等公司挖角年轻精英,并组建由28岁的Alexandr Wang领导的「超级智能」团队 [4] - 勒昆的汇报关系发生变化,转为向比他年轻三十多岁的Alexandr Wang汇报,其领导的FAIR实验室被边缘化,团队论文发表需经新管理层审批 [4] 技术路线分歧 - 勒昆多次公开批评当前的大语言模型,认为其永远无法实现真正的推理和规划,绝非通往通用人工智能的终极道路 [7] - 他坚持推进的「世界模型」研究因短期内难以看到商业回报,与扎克伯格要求的"立即变现"KPI目标背道而驰 [7] - 权力被架空、研究方向被边缘化及根本性的技术路线分歧共同促使离职决定 [7] 未来规划与行业影响 - 勒昆离职后将全身心投入「世界模型」的创业,新公司目标直指真正的人类级智能,正在进行早期融资洽谈 [8] - 「世界模型」旨在让AI通过观察视频和空间数据学习理解物理世界运作规律,与当前仅处理文本和语言的LLM不同 [8] - 勒昆预测未来3-5年内"世界模型"将成为AI架构主流,并认为开发出成熟架构可能需要十年时间 [8] - 勒昆是卷积神经网络的开创者,为现代计算机视觉奠定基石,2013年加入Facebook并创立领导FAIR实验室,2018年荣获图灵奖 [9] - 离职对Meta意味着其核心研究机构FAIR的彻底边缘化,以及失去一位在AI基础研究上的重要掌舵人,可能影响AI领域格局 [9]