核心观点 - 清华大学与小米汽车联合推出DGGT框架,这是一个无需相机位姿标定、单次前向即可完成4D动态驾驶场景重建的模型,在速度、精度和跨数据集泛化能力上均表现出显著优势 [2][3][6] - DGGT不仅是一个重建工具,更是一个可编辑的4D场景资产生成器,其输出可直接用于自动驾驶仿真、评测与数据合成等下游任务 [21] 技术架构与原理 - 核心思想是将相机位姿从输入前提转变为模型输出,实现无需外参标定即可从稀疏、未标定图像中恢复动态场景 [6] - 采用ViT编码器融合DINO先验,通过多头联合预测结构(相机、4D Gaussian、寿命、动态/运动、天空等)一次前向输出完整的4D场景状态 [10][12] - 通过lifespan head建模场景随时间的外观演变,配合单步扩散精修,有效抑制运动插值伪影,提升时空一致性与渲染自然度 [3][12] 性能表现与量化指标 - 重建速度与质量:在Waymo数据集上,单场景推理时间约0.39秒,同时获得PSNR 27.41、SSIM 0.846的渲染质量,在速度与精度上优于前向与优化方法 [8][11] - 深度与运动估计精度:在Waymo数据集上,深度误差(D-RMSE)为3.47,场景流估计误差(EPE3D)为0.183米,优于对比方法 [11] - 关键组件消融影响:去除lifespan head会导致PSNR从27.41显著下降至24.21,证明其对建模静态区域时间维度变化至关重要 [11][17] 跨数据集零样本泛化能力 - 模型仅在Waymo数据集上训练,但在nuScenes和Argoverse2数据集上无需微调即实现强劲的零样本泛化 [3][15] - 在nuScenes上,LPIPS指标从STORM的0.394降至0.152,降幅达61.4%;在Argoverse2上,从0.326降至0.155,降幅达52.5% [13][15] - 这种跨域鲁棒性主要得益于其pose-free设计,减少了对固定拍摄轨迹与相机配置的依赖 [15] 可扩展性与输入鲁棒性 - 模型支持任意数量的输入视角与长序列,当输入视角从4增至16时,其重建与新视角插值(NVS)指标保持稳定,而对比方法(如STORM)性能出现明显下滑 [16] - 这表明DGGT不仅适合研究场景,更适合处理大规模日志数据与进行工程级批量重建 [16] 场景编辑与应用潜力 - 支持在3D Gaussian表示层面进行实例级编辑,如对车辆、行人等目标进行添加、删除、移动等操作 [20] - 编辑后通过扩散精修模块自动填补空洞、平滑边界,使合成结果在几何与外观上保持自然可信 [20] - 输出包括相机姿态、深度、动态分割、3D Gaussian、追踪等可编辑资产,便于后续的仿真与数据合成 [6][21]
清华&小米最新DGGT:0.4秒完成4D自驾高斯重建,性能提升50%!
自动驾驶之心·2025-12-08 08:02