Geo4D
搜索文档
一个模型统一4D世界生成与重建,港科大One4D框架来了
具身智能之心· 2026-01-14 10:02
文章核心观点 - 香港科技大学研究团队提出One4D框架,旨在解决现有视频扩散模型缺乏三维几何显式建模的问题,通过一个统一的模型同步生成RGB视频和Pointmap几何视频,并支持从单张图像生成、稀疏帧补全到完整视频重建等多种4D任务,为世界模型、具身智能等应用提供更实用的基础能力 [3][7][32] 技术框架与核心创新 - **多模态同步输出**:One4D将动态4D场景表示为同步输出的两种模态:RGB帧(外观)和Pointmap(XYZ几何视频),后者可进一步导出深度图并估计相机轨迹,形成4D点云 [7] - **解耦LoRA控制**:提出DLC方法,为RGB和Pointmap分别挂载模态专属LoRA,形成两条解耦的计算分支,再通过少量从零初始化的控制连接实现像素级对齐,以在低资源微调下保持基础模型先验并减少模态间干扰 [9][10][11] - **统一掩码条件**:提出UMC方法,将单帧、稀疏帧、全视频等不同输入条件统一打包成一个条件视频,并用掩码指定需生成的帧,使同一模型结构无需改动即可平滑切换于4D生成与重建任务之间 [14] 训练数据与效率 - **混合数据策略**:采用合成数据与真实数据混合训练,合成数据通过游戏引擎渲染提供精确的几何真值,真实数据则使用现有方法生成几何标注以覆盖复杂真实分布,结合两者以保持视频质感与几何精度 [16][17] - **训练效率**:使用34,000条视频,在8张NVIDIA H800 GPU上训练5,500步即获得良好效果 [17] 实验结果与性能 - **单图到4D生成**:在用户偏好研究中,One4D在一致性、动态性、美学、深度质量和整体4D连贯性上全面领先对比方法4DNeX,偏好率分别达到78.9%、83.3%、82.3%、88.3%和90.0% [19][20] - **单图到4D生成**:在VBench评测中,One4D的动态性得分达55.7%,显著高于4DNeX的25.6%,同时图像到视频一致性保持在97.8%的可比水平 [21] - **完整视频到4D重建**:在Sintel和Bonn深度重建数据集上,One4D作为生成与重建统一模型,性能超越多个仅做重建的方法,如Abs Rel在Sintel为0.273,优于MonST3R的0.335和CUT3R的0.311,接近专用重建方法Geo4D-ref的0.205 [22][24][25] - **相机轨迹估计**:在Sintel和TUM-dynamics数据集上,One4D的相机轨迹估计精度保持可用水平,例如在Sintel上的绝对轨迹误差为0.213,证明了其统一重建与生成的能力 [27][28] - **稀疏帧到4D生成**:在仅输入极稀疏帧(如5%的帧)的条件下,One4D仍能生成合理的4D结构,在Bonn数据集上Abs Rel为0.151,δ<1.25为87.2%,展现了强大的动态场景生成能力 [29][30]