VideoWorld 2
搜索文档
CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识
机器之心· 2026-03-07 19:20
模型概述与核心突破 - 豆包大模型团队与北京交通大学联合提出通用视觉世界模型VideoWorld 2,其核心观点是首次在业界实现无需依赖语言模型,仅通过浏览视频数据即可认知和掌握真实世界中的复杂知识[2][4] - 该模型旨在解决现有AI(如Sora 2、Veo 3、Wan 2.2)难以从真实世界视频中学习知识的挑战,特别是难以捕捉复杂的动态变化、空间关系及物理规律等非语言化知识[2][7] - VideoWorld 2仅通过“视觉信息”学习,使机器掌握推理、规划和决策等复杂能力,其论文已入选顶级会议CVPR 2026[2][4][6] 技术原理与架构创新 - 模型成功的关键在于提出了一种动态增强型潜动态模型(dLDM),其核心创新是将真实世界视频中的复杂外观与任务核心动作进行解耦,防止模型过拟合到相机抖动、光影变化等无关视觉细节[4][13][16] - dLDM架构包含一个MAGVITv2风格的编码器-解码器结构以及一个预训练的视频扩散模型(VDM),编码器将视频动态变化压缩为紧凑的潜在编码,VDM则负责将潜在编码渲染为视频[16][17] - 通过引入VDM作为外观渲染器,潜在编码得以专注于紧凑、可泛化的动作信息,同时利用解码器进行辅助重建并阻断梯度回传,从而稳定训练并提升模型对长时序复杂动态的捕捉能力[16][18] 性能表现与实验结果 - 在长达1分钟的复杂手工制作任务(如折纸、搭积木)测试中,VideoWorld 2的成功率远高于Sora 2、Veo 3和Wan 2.2等最先进技术,成功率提升超过70%,而后几种模型几乎无法完成此类任务[4][10] - 模型具备强大的技能泛化能力,能够将学习到的技能迁移至多种未见场景,并实现跨环境的多任务机器人操控[4][21] - 在潜在空间分析中,VideoWorld 2提取的编码对于跨环境(如仿真环境CALVIN与真实环境BRIDGE)的相似机械臂运动表现出更显著的聚类趋势,证明其能更好地提取跨场景共性,学习泛化性策略[23][25] 应用场景与数据基础 - 研究构建了两个实验环境进行评估:视频手工制作和视频机器人操控[8][9] - 手工制作视频环境包含多种场景下的精细动作与环境变化(如纸张不规则形变、视角切换与遮挡),视频时长达分钟级别并包含多个连续操作步骤,是评估模型复杂知识学习能力的理想测试场[8] - 机器人任务环境用于考察模型在理解控制规则和长程规划方面的能力[9] 发展前景与行业意义 - 该研究探索了AI直接从真实视频中学习复杂任务知识的边界,揭示了视觉能力是推动智能飞跃式发展的重要途径,对于构建能够自主感知、推理与行动的通用智能体具有指向性意义[4][26] - 尽管面向真实世界的视频知识学习与技能泛化仍存在很大挑战,但VideoWorld 2展示了从视频数据中学习更多样、更复杂任务技能的潜力[5][26] - 目前,该项目的代码与模型已开源[6]