Geo4D - 财报，业绩电话会，研报，新闻

Geo4D

搜索文档

具身智能之心· 2026-01-14 10:02

文章核心观点 - 香港科技大学研究团队提出One4D框架，旨在解决现有视频扩散模型缺乏三维几何显式建模的问题，通过一个统一的模型同步生成RGB视频和Pointmap几何视频，并支持从单张图像生成、稀疏帧补全到完整视频重建等多种4D任务，为世界模型、具身智能等应用提供更实用的基础能力 [3][7][32] 技术框架与核心创新 - **多模态同步输出**：One4D将动态4D场景表示为同步输出的两种模态：RGB帧（外观）和Pointmap（XYZ几何视频），后者可进一步导出深度图并估计相机轨迹，形成4D点云 [7] - **解耦LoRA控制**：提出DLC方法，为RGB和Pointmap分别挂载模态专属LoRA，形成两条解耦的计算分支，再通过少量从零初始化的控制连接实现像素级对齐，以在低资源微调下保持基础模型先验并减少模态间干扰 [9][10][11] - **统一掩码条件**：提出UMC方法，将单帧、稀疏帧、全视频等不同输入条件统一打包成一个条件视频，并用掩码指定需生成的帧，使同一模型结构无需改动即可平滑切换于4D生成与重建任务之间 [14] 训练数据与效率 - **混合数据策略**：采用合成数据与真实数据混合训练，合成数据通过游戏引擎渲染提供精确的几何真值，真实数据则使用现有方法生成几何标注以覆盖复杂真实分布，结合两者以保持视频质感与几何精度 [16][17] - **训练效率**：使用34,000条视频，在8张NVIDIA H800 GPU上训练5,500步即获得良好效果 [17] 实验结果与性能 - **单图到4D生成**：在用户偏好研究中，One4D在一致性、动态性、美学、深度质量和整体4D连贯性上全面领先对比方法4DNeX，偏好率分别达到78.9%、83.3%、82.3%、88.3%和90.0% [19][20] - **单图到4D生成**：在VBench评测中，One4D的动态性得分达55.7%，显著高于4DNeX的25.6%，同时图像到视频一致性保持在97.8%的可比水平 [21] - **完整视频到4D重建**：在Sintel和Bonn深度重建数据集上，One4D作为生成与重建统一模型，性能超越多个仅做重建的方法，如Abs Rel在Sintel为0.273，优于MonST3R的0.335和CUT3R的0.311，接近专用重建方法Geo4D-ref的0.205 [22][24][25] - **相机轨迹估计**：在Sintel和TUM-dynamics数据集上，One4D的相机轨迹估计精度保持可用水平，例如在Sintel上的绝对轨迹误差为0.213，证明了其统一重建与生成的能力 [27][28] - **稀疏帧到4D生成**：在仅输入极稀疏帧（如5%的帧）的条件下，One4D仍能生成合理的4D结构，在Bonn数据集上Abs Rel为0.151，δ<1.25为87.2%，展现了强大的动态场景生成能力 [29][30]

4D世界生成与重建

具身智能

Artificial Intelligence

Artificial Intelligence

One4D

Wan Video

Geo4D