VerseCrafter：给视频世界模型装上4D方向盘，精准运镜控物

VerseCrafter模型的技术突破 - 复旦大学、腾讯PCG ARC Lab等机构的研究者提出了VerseCrafter，这是一个通过显式4D几何控制实现的动态逼真视频世界模型 [2] - 该模型能像“导演”一样精准控制相机运镜，同时指挥场景中多个物体的3D运动轨迹，为视频生成引入了物理世界维度 [2] - 其核心理念在于用一个统一的4D几何世界状态驱动视频生成，利用静态背景点云和每个物体的3D高斯轨迹，实现对相机和物体运动的解耦与协同控制 [5] 现有技术困境与解决方案 - 现有视频模型面临核心困境：视频在2D平面播放，但真实世界是4D的；现有方法难以在统一框架下同时实现精准的相机控制和多物体运动控制 [2] - VerseCrafter创新性地提出了一种基于3D高斯的表示方法，提供了一种软性、灵活且类别无关的表示方式，能以概率分布形式描述物体在3D空间中的占据情况 [9][11] - 模型采用冻结的Wan2.1-T2V-14B作为视频先验主干网络，并设计了一个轻量级的GeoAdapter，以极小的代价引入精确的4D控制 [12][13] 数据集构建 - 为训练4D世界模型，研究团队构建了VerseControl4D数据集，以解决缺乏大量带有精确4D标注的真实世界视频数据的问题 [15] - 该数据集使用静态背景点云表示环境几何，使用每物体3D高斯轨迹编码物体运动 [16] - 数据集构建结合了Qwen2.5-VL-72B、Grounded-SAM2、MegaSaM等先进工具进行自动化标注，包含35,000个训练视频片段，涵盖了丰富的动态和静态场景 [24] 模型性能与实验结果 - 实验表明，VerseCrafter在各项指标上均超越了现有的SOTA方法，如Perception-as-Control、Yume、Uni3C等 [21] - 在动态场景联合控制对比中，VerseCrafter能够精确地让物体沿着预设的3D高斯轨迹移动，同时完美执行相机运镜，且背景保持几何一致 [22][26] - 在静态场景运镜对比中，VerseCrafter的表现优于专门的ViewCrafter和Voyager等模型，在大幅度运镜下依然保持了建筑结构的笔直和纹理的清晰 [27][28] - 得益于统一的4D世界坐标系，VerseCrafter还支持多玩家视角生成，对于同一个动态事件，可以从完全不同的两个视角分别生成高度一致的视频 [29][30] 行业意义与应用前景 - VerseCrafter的出现标志着视频生成向可控4D世界模拟迈出了重要一步 [31] - 通过将显式的3D几何先验与强大的2D视频生成模型相结合，它不仅解决了复杂场景下的控制难题，也为游戏制作、电影预演和具身智能模拟提供了新的可能性 [31]