Workflow
4D动态驾驶场景重建
icon
搜索文档
清华&小米DGGT:0.4秒完成4D高斯重建,性能提升50%!
自动驾驶之心· 2025-12-18 08:06
核心观点 - 清华大学与小米汽车联合推出DGGT框架,这是一个无需相机位姿标定、单次前向即可完成4D动态驾驶场景重建的模型,在速度、精度和跨数据集泛化能力上表现卓越,并具备强大的场景编辑功能,有望成为自动驾驶仿真与数据合成的核心工具 [1][6][21] 技术原理与架构 - DGGT采用Pose-Free设计,将相机位姿从输入转为模型输出,端到端预测内外参,从而打破跨数据集部署的校准壁垒 [6][8] - 模型采用ViT编码器融合DINO先验,通过多头联合预测结构,一次前向即可输出相机位姿、4D Gaussian、寿命、动态/运动、天空等完整的4D场景状态 [10][12] - 系统通过Lifespan Head建模场景随时间的外观演变,并通过单步扩散精修抑制运动插值伪影,提升时空一致性与渲染自然度 [3][12] 性能表现 - **重建速度与质量**:在Waymo数据集上,单场景推理时间约0.39秒,同时获得PSNR 27.41、SSIM 0.846的高保真重建质量,在速度与精度上优于前向与优化方法 [8][11] - **关键指标领先**:在Waymo数据集上,其深度误差(D-RMSE)为3.47,场景流估计误差(EPE3D)为0.183米,均优于对比方法 [11] - **零样本泛化能力强劲**:仅在Waymo上训练,无需微调即在nuScenes和Argoverse2数据集上实现超越SOTA的泛化性能,例如在nuScenes上LPIPS从0.394降至0.152(下降61.4%)[13][15] 核心优势与特点 - **强大的跨数据集泛化**:Pose-Free设计减少了对固定拍摄轨迹与相机配置的依赖,使模型在不同传感器布置下仍能维持良好性能,实现了跨域鲁棒性 [15] - **卓越的可扩展性**:支持任意数量的输入视角与长序列,当输入视角从4增至16时,其重建与新视角插值指标保持稳定,而对比方法性能明显下滑,更适合大规模工程化处理 [16] - **高度可编辑的4D场景生成**:模型输出包含相机姿态、深度、动态分割、3D Gaussian追踪等可编辑资产,支持在Gaussian层面直接对车辆、行人等实例进行添加、删除、移动等操作,扩散精修模块可自动补洞与平滑边界 [6][20][21] 组件功能与消融验证 - **Lifespan Head价值**:该组件负责刻画静态区域在不同时间的外观变化,消融实验显示,去除后PSNR从27.41大幅下降至24.21,证明其对维持时空一致性与真实感至关重要 [11][17] - **Motion Head作用**:负责预测像素级3D位移,将同一物体在相邻帧中对齐并插值,确保了运动物体在时间上的连续性与视觉自然度 [19] - **扩散精修效果**:虽然在定量指标上提升较小,但能有效抑制遮挡/插值产生的伪影与细节缺失,显著改善视觉效果,更适配下游任务 [11]
清华&小米最新DGGT:0.4秒完成4D自驾高斯重建,性能提升50%!
自动驾驶之心· 2025-12-08 08:02
核心观点 - 清华大学与小米汽车联合推出DGGT框架,这是一个无需相机位姿标定、单次前向即可完成4D动态驾驶场景重建的模型,在速度、精度和跨数据集泛化能力上均表现出显著优势 [2][3][6] - DGGT不仅是一个重建工具,更是一个可编辑的4D场景资产生成器,其输出可直接用于自动驾驶仿真、评测与数据合成等下游任务 [21] 技术架构与原理 - 核心思想是将相机位姿从输入前提转变为模型输出,实现无需外参标定即可从稀疏、未标定图像中恢复动态场景 [6] - 采用ViT编码器融合DINO先验,通过多头联合预测结构(相机、4D Gaussian、寿命、动态/运动、天空等)一次前向输出完整的4D场景状态 [10][12] - 通过lifespan head建模场景随时间的外观演变,配合单步扩散精修,有效抑制运动插值伪影,提升时空一致性与渲染自然度 [3][12] 性能表现与量化指标 - **重建速度与质量**:在Waymo数据集上,单场景推理时间约0.39秒,同时获得PSNR 27.41、SSIM 0.846的渲染质量,在速度与精度上优于前向与优化方法 [8][11] - **深度与运动估计精度**:在Waymo数据集上,深度误差(D-RMSE)为3.47,场景流估计误差(EPE3D)为0.183米,优于对比方法 [11] - **关键组件消融影响**:去除lifespan head会导致PSNR从27.41显著下降至24.21,证明其对建模静态区域时间维度变化至关重要 [11][17] 跨数据集零样本泛化能力 - 模型仅在Waymo数据集上训练,但在nuScenes和Argoverse2数据集上无需微调即实现强劲的零样本泛化 [3][15] - 在nuScenes上,LPIPS指标从STORM的0.394降至0.152,降幅达61.4%;在Argoverse2上,从0.326降至0.155,降幅达52.5% [13][15] - 这种跨域鲁棒性主要得益于其pose-free设计,减少了对固定拍摄轨迹与相机配置的依赖 [15] 可扩展性与输入鲁棒性 - 模型支持任意数量的输入视角与长序列,当输入视角从4增至16时,其重建与新视角插值(NVS)指标保持稳定,而对比方法(如STORM)性能出现明显下滑 [16] - 这表明DGGT不仅适合研究场景,更适合处理大规模日志数据与进行工程级批量重建 [16] 场景编辑与应用潜力 - 支持在3D Gaussian表示层面进行实例级编辑,如对车辆、行人等目标进行添加、删除、移动等操作 [20] - 编辑后通过扩散精修模块自动填补空洞、平滑边界,使合成结果在几何与外观上保持自然可信 [20] - 输出包括相机姿态、深度、动态分割、3D Gaussian、追踪等可编辑资产,便于后续的仿真与数据合成 [6][21]