Workflow
哈工大&理想PAGS:自驾闭环仿真新SOTA!
自动驾驶之心·2025-10-18 00:04

研究背景与核心问题 - 动态大规模城市环境的3D重建是自动驾驶系统的核心基础,支撑仿真测试、合成数据生成、数字孪生等关键应用 [1] - 现有主流方法(如StreetGS、DrivingGaussian)采用“均匀优化”范式,存在语义无关的资源分配瓶颈,无法区分对驾驶安全关键的元素(如行人、车辆)与非关键元素(如远处建筑、路边植被) [1] - 资源错配导致计算资源大量浪费在非关键元素上,而关键物体的高频细节因资源不足被平滑或模糊,陷入保真度与计算成本不可兼得的困境 [1] 核心方法设计 - PAGS提出“将任务感知的语义优先级嵌入重建与渲染全流程”,核心包含组合高斯场景表示、语义引导资源分配、优先级驱动的渲染pipeline三大模块 [4] - 组合高斯场景表示对场景进行静动态分离建模,静态背景用固定在世界坐标系的3D高斯集合表示,动态物体在独立局部坐标系内建模 [4] - 语义引导资源分配通过离线语义场景分解将元素划分为关键类(车辆、行人、骑行者)和非关键类(建筑、道路、植被),并基于混合重要性度量进行高斯排序剪枝 [5][8] - 优先级驱动的渲染pipeline通过硬件加速的遮挡剔除,分为Occluder Depth Pre-Pass和Color Pass两个关键pass,实现实时渲染 [6][7][9] 实验验证与结果分析 - 在Waymo和KITTI数据集上的定量结果显示,PAGS在Waymo数据集上PSNR达34.63、SSIM达0.933,在KITTI数据集上PSNR达34.58、SSIM达0.947,均为最优 [13][17] - 训练效率显著提升,训练时间仅1小时22分钟(Waymo)和1小时31分钟(KITTI),远低于StreetGS的3小时以上和EmerNeRF的11小时以上 [13][17] - 渲染速度达到353 FPS(Waymo)和365 FPS(KITTI),是StreetGS(136 FPS)的2.6倍,EmerNeRF(0.23 FPS)的1500倍以上 [10][13][17] - 模型大小530 MB、显存占用6.1 GB,仅为EmerNeRF(1217 MB、10.5 GB)的约1/2,更适配车载硬件资源约束 [10][17] 研究结论与行业意义 - PAGS通过语义引导的资源分配与优先级驱动的渲染加速,打破了动态驾驶场景3D重建中保真度与效率的固有权衡 [22][23] - 该方法能以更短训练时间、更低硬件开销实现更高质量的关键物体重建,为3D高斯泼溅技术在自动驾驶中的实用部署提供了核心技术支撑 [23] - 消融实验证明混合重要性度量(α=0.4)同时实现最高整体PSNR(34.63)与关键物体PSNR(35.97),优于单纯的梯度或语义策略 [20][22]