Wan Video
搜索文档
一个模型统一4D世界生成与重建,港科大One4D框架来了
具身智能之心· 2026-01-14 10:02
文章核心观点 - 香港科技大学研究团队提出One4D框架,旨在解决现有视频扩散模型缺乏三维几何显式建模的问题,通过一个统一的模型同步生成RGB视频和Pointmap几何视频,并支持从单张图像生成、稀疏帧补全到完整视频重建等多种4D任务,为世界模型、具身智能等应用提供更实用的基础能力 [3][7][32] 技术框架与核心创新 - **多模态同步输出**:One4D将动态4D场景表示为同步输出的两种模态:RGB帧(外观)和Pointmap(XYZ几何视频),后者可进一步导出深度图并估计相机轨迹,形成4D点云 [7] - **解耦LoRA控制**:提出DLC方法,为RGB和Pointmap分别挂载模态专属LoRA,形成两条解耦的计算分支,再通过少量从零初始化的控制连接实现像素级对齐,以在低资源微调下保持基础模型先验并减少模态间干扰 [9][10][11] - **统一掩码条件**:提出UMC方法,将单帧、稀疏帧、全视频等不同输入条件统一打包成一个条件视频,并用掩码指定需生成的帧,使同一模型结构无需改动即可平滑切换于4D生成与重建任务之间 [14] 训练数据与效率 - **混合数据策略**:采用合成数据与真实数据混合训练,合成数据通过游戏引擎渲染提供精确的几何真值,真实数据则使用现有方法生成几何标注以覆盖复杂真实分布,结合两者以保持视频质感与几何精度 [16][17] - **训练效率**:使用34,000条视频,在8张NVIDIA H800 GPU上训练5,500步即获得良好效果 [17] 实验结果与性能 - **单图到4D生成**:在用户偏好研究中,One4D在一致性、动态性、美学、深度质量和整体4D连贯性上全面领先对比方法4DNeX,偏好率分别达到78.9%、83.3%、82.3%、88.3%和90.0% [19][20] - **单图到4D生成**:在VBench评测中,One4D的动态性得分达55.7%,显著高于4DNeX的25.6%,同时图像到视频一致性保持在97.8%的可比水平 [21] - **完整视频到4D重建**:在Sintel和Bonn深度重建数据集上,One4D作为生成与重建统一模型,性能超越多个仅做重建的方法,如Abs Rel在Sintel为0.273,优于MonST3R的0.335和CUT3R的0.311,接近专用重建方法Geo4D-ref的0.205 [22][24][25] - **相机轨迹估计**:在Sintel和TUM-dynamics数据集上,One4D的相机轨迹估计精度保持可用水平,例如在Sintel上的绝对轨迹误差为0.213,证明了其统一重建与生成的能力 [27][28] - **稀疏帧到4D生成**:在仅输入极稀疏帧(如5%的帧)的条件下,One4D仍能生成合理的4D结构,在Bonn数据集上Abs Rel为0.151,δ<1.25为87.2%,展现了强大的动态场景生成能力 [29][30]
一个模型统一4D世界生成与重建,港科大One4D框架来了
机器之心· 2026-01-13 08:12
技术框架与核心创新 - 香港科技大学研究团队提出One4D,一个统一的4D生成与重建框架,旨在解决现有视频扩散模型缺乏三维几何显式建模的问题,以支持世界模型导向的应用如空间推理和具身智能[4] - 该框架的核心是构建一个能同步输出多模态结果的视频扩散模型,可同时生成RGB视频和Pointmap(XYZ)几何视频,并支持从单张图像生成4D、从稀疏帧生成与重建4D、以及从完整视频重建4D等多种任务形态[4][9] - 其核心算法设计包含两大亮点:一是解耦LoRA控制(DLC),通过为RGB和Pointmap分别挂载模态专属LoRA并辅以少量控制连接,在低资源微调下减少模态干扰并确保像素级对齐[8][11][13][14];二是统一掩码条件(UMC),通过将不同条件统一打包,使同一模型无需改变结构即可在不同生成与重建任务间平滑切换[8][17] 技术实现与数据策略 - 模型将动态4D场景表示为两种同步的输出模态:RGB帧(外观)和Pointmaps(XYZ几何视频),后者可进一步导出深度并估计相机轨迹,最终可视化为4D点云和相机[8] - 训练数据采用合成数据与真实数据混合策略,合成数据通过游戏引擎渲染提供精确几何真值,真实数据则使用现有方法生成几何标注以引入真实世界分布,共计使用34K条视频在8张NVIDIA H800 GPU上训练5500步[19][20] 性能表现与评估结果 - 在用户偏好研究中,One4D在一致性、动态性、美学、深度质量和整体4D连贯性五个维度上全面领先对比方法4DNeX,例如在4D连贯性上获得90.0%的偏好,远超后者的10.0%[21][22] - 在VBench评估中,One4D的动态性得分达到55.7%,显著高于4DNeX的25.6%,同时图像到视频一致性(97.8%)与美学得分(63.8%)保持可比或略优水平[22][23] - 在完整视频4D重建任务上,One4D在Sintel和Bonn深度重建数据集上表现优于多个专用重建方法,例如在Sintel数据集上的Abs Rel指标为0.273,优于MonST3R的0.335和CUT3R的0.311,接近专用方法Geo4D-ref的0.205[25][26] - 在相机轨迹估计能力上,One4D在Sintel和TUM-dynamics数据集上保持了可用精度,例如在Sintel数据集上的ATE为0.213,RPE-T为0.057,证明了其统一重建与生成的能力[28][29] - 在稀疏视频帧到4D生成任务中,即使输入帧极度稀疏,One4D仍能生成合理的4D结构,例如当稀疏度为0.10时,在Bonn数据集上的Abs Rel为0.099,δ<1.25为92.9%,展示了其强大的动态场景生成能力[30][31] 行业意义与应用前景 - One4D推动视频生成技术从纯RGB输出走向同步生成外观与几何信息,为构建可用于理解与交互的4D世界提供了基础能力[33] - 该技术为下一代世界模型、多模态内容创作以及需要完整模拟4D世界的应用(如具身智能、机器人、自动驾驶仿真)提供了更实用的技术支撑[4][33]