技术框架与核心创新 - 香港科技大学研究团队提出One4D,一个统一的4D生成与重建框架,旨在解决现有视频扩散模型缺乏三维几何显式建模的问题,以支持世界模型导向的应用如空间推理和具身智能[4] - 该框架的核心是构建一个能同步输出多模态结果的视频扩散模型,可同时生成RGB视频和Pointmap(XYZ)几何视频,并支持从单张图像生成4D、从稀疏帧生成与重建4D、以及从完整视频重建4D等多种任务形态[4][9] - 其核心算法设计包含两大亮点:一是解耦LoRA控制(DLC),通过为RGB和Pointmap分别挂载模态专属LoRA并辅以少量控制连接,在低资源微调下减少模态干扰并确保像素级对齐[8][11][13][14];二是统一掩码条件(UMC),通过将不同条件统一打包,使同一模型无需改变结构即可在不同生成与重建任务间平滑切换[8][17] 技术实现与数据策略 - 模型将动态4D场景表示为两种同步的输出模态:RGB帧(外观)和Pointmaps(XYZ几何视频),后者可进一步导出深度并估计相机轨迹,最终可视化为4D点云和相机[8] - 训练数据采用合成数据与真实数据混合策略,合成数据通过游戏引擎渲染提供精确几何真值,真实数据则使用现有方法生成几何标注以引入真实世界分布,共计使用34K条视频在8张NVIDIA H800 GPU上训练5500步[19][20] 性能表现与评估结果 - 在用户偏好研究中,One4D在一致性、动态性、美学、深度质量和整体4D连贯性五个维度上全面领先对比方法4DNeX,例如在4D连贯性上获得90.0%的偏好,远超后者的10.0%[21][22] - 在VBench评估中,One4D的动态性得分达到55.7%,显著高于4DNeX的25.6%,同时图像到视频一致性(97.8%)与美学得分(63.8%)保持可比或略优水平[22][23] - 在完整视频4D重建任务上,One4D在Sintel和Bonn深度重建数据集上表现优于多个专用重建方法,例如在Sintel数据集上的Abs Rel指标为0.273,优于MonST3R的0.335和CUT3R的0.311,接近专用方法Geo4D-ref的0.205[25][26] - 在相机轨迹估计能力上,One4D在Sintel和TUM-dynamics数据集上保持了可用精度,例如在Sintel数据集上的ATE为0.213,RPE-T为0.057,证明了其统一重建与生成的能力[28][29] - 在稀疏视频帧到4D生成任务中,即使输入帧极度稀疏,One4D仍能生成合理的4D结构,例如当稀疏度为0.10时,在Bonn数据集上的Abs Rel为0.099,δ<1.25为92.9%,展示了其强大的动态场景生成能力[30][31] 行业意义与应用前景 - One4D推动视频生成技术从纯RGB输出走向同步生成外观与几何信息,为构建可用于理解与交互的4D世界提供了基础能力[33] - 该技术为下一代世界模型、多模态内容创作以及需要完整模拟4D世界的应用(如具身智能、机器人、自动驾驶仿真)提供了更实用的技术支撑[4][33]
一个模型统一4D世界生成与重建,港科大One4D框架来了
机器之心·2026-01-13 08:12