Workflow
DriveScape
icon
搜索文档
流形空间CEO武伟:当AI开始“理解世界”,世界模型崛起并重塑智能边界|「锦秋会」分享
锦秋集· 2025-11-05 22:01
世界模型的核心概念与定义 - 世界模型是AI智能的下一个基础范式,其目标不是生成内容,而是在智能体内部模拟世界的运行规律[9] - 世界模型是一种可以模拟所有场景的生成式模型,被理解为"the online simulator in our brain",即能够在线进行模拟的智能体模型[15] - 技术上,世界模型通过隐式建模学习并近似环境的状态转移概率分布,从而在仿真空间中进行预测与推演[16] - 与传统AIGC不同,世界模型的目标不是"还原现实",而是通过预测环境变化来做出更优决策[9] 世界模型的技术价值与应用方向 - 世界模型让AI第一次具备"心智推演"能力,能在脑中模拟因果、预判后果、优化行动[9] - 主要应用方向包括构建Agent Model和环境模型两大范式[18][22] - 作为Agent Model时,通过在线模拟和推演获得更好决策,替代依赖经验回放的模仿学习方式[18] - 作为环境模型时,通过离线强化学习获得更好泛化能力,成为通用的Omni Simulator[22] - 为自动驾驶、无人机、具身智能等领域奠定通用智能底座,实现从"经验学习"到"因果理解"的跨越[9] 行业技术路线与发展历程 - 世界模型方向最早可追溯到2018年论文《World Models》,提出Mental Model概念并通过RNN对世界状态进行建模[24] - 2024年OpenAI的Sora出现后形成首个具备文生视频能力的结构化模型,AIGC技术与视觉世界模型开始深度融合[24] - Google的Genie系列基于海量视频数据进行scaling up,训练具有三维空间一致性的视频生成模型,以自回归技术路线为主干[27][28] - Google的Dreamer系列核心思想与AlphaGo一脉相承,在模型构造的虚拟环境中让智能体进行强化学习,经过三代迭代实现跨游戏环境泛化[43][44][52] - Meta的V-JEPA技术路线引入新思路,通过sampling与能量函数评估方式搜索最优执行状态,提供更可解释、更物理一致的智能体建模方式[55][56][57] 流形空间的技术布局与成果 - 公司提出"全域世界模型"体系,已在自动驾驶、机器人、无人机等方向实现突破[9] - 2025年CVPR上发表DriveScape自动驾驶世界模型,比特斯拉Autopilot自动驾驶世界模型发布更早[75] - 2025年NeurIPS上发布RoboScape,是首个针对具身智能的物理可控世界模型,能通过单帧图像+语言指令执行物理动作,支持刚体与柔性物体交互[78] - 2025年ACM MM上推出全球首个无人机世界模型AirScape,通过显式世界建模实现空间与视角统一控制[81] - 所有模型基于自研LongScape基础架构,结合Auto-regressive + DiT混合建模方式,整体研发进度超前于特斯拉世界模型团队[83] - 已将模型量化蒸馏部署到边缘端推理系统,驱动机器人实现自主移动以及无人机实现自主导航[84] 当前挑战与未来发展方向 - 现有模型如Cosmos、Genie、WorldLabs在多模态感知、指令遵循、物理世界建模等方面仍有不足,任务适应性不够强[66] - 具身智能体面临跨尺度空间挑战,自动驾驶汽车、室内操作机器人、低空无人机等不同尺度下的泛化能力仍然较弱[67] - 未来提升主要集中在五个方面:需要更丰富的多模态数据、更强的表征学习能力、新的原生世界模型基模架构、转向任务执行能力的训练目标、以及任务泛化与跨环境自适应能力[69][70][71][72][73]