Workflow
Driving Gaussian Grounded Transformer (DGGT)
icon
搜索文档
AI Day直播!免位姿前馈4D自动驾驶世界DGGT
自动驾驶之心· 2025-12-23 08:53
文章核心观点 - 自动驾驶行业在动态场景重建与仿真领域面临效率与灵活性挑战 现有方法依赖逐场景优化、已知相机位姿或短时间窗口 导致速度慢、实用性受限 [3] - 提出一种名为Driving Gaussian Grounded Transformer 的统一免位姿前馈4D重建框架 该框架将相机位姿重新定义为模型输出 可直接从稀疏无位姿图像进行重建 并支持长序列任意数量视角 [3] - 该方法通过单次前向传播实现毫秒级动态场景生成与动静解耦 在速度与性能上达到领先水平 并支持跨数据集零样本迁移与实例级场景编辑 为构建大规模世界模拟器提供了高效解决方案 [4][9] 技术方案与框架 - 框架核心是联合预测每帧的3D高斯图与相机参数 通过轻量级动态头解耦动态元素 并利用寿命头调制随时间变化的可见性以保持时序一致性 [3] - 采用基于扩散的渲染细化技术 进一步减少了运动或插值伪影 提升了在稀疏输入条件下的新视角合成质量 [4] - 该方法是前馈式且无需位姿输入的算法 在大型驾驶数据集上进行训练与评估 这些数据集包括Waymo、nuScenes和Argoverse2 [4] 性能与评估 - 评估结果表明 无论是在各数据集上单独训练 还是在跨数据集的零样本迁移任务中 该方法均优于已有工作 [4] - 该方法具有良好的扩展性 其性能随着输入帧数的增加而持续提升 [4] 行业应用与前景 - 该技术旨在打破真实数据的局限 实现用于自动驾驶的重仿真 并摆脱对高精度位姿的依赖 实现毫秒级动态重建 [9][10] - 该框架支持跨域泛化与实例级场景编辑 为应对现有动态生成瓶颈和构建未来通用世界模型提供了高效解决方案 [9][10]