理想DrivingScene: 两帧图像实时重建动态驾驶场景

研究背景与挑战 - 自动驾驶系统的安全性和可靠性高度依赖4D动态场景重建（3D空间+时间维度的实时、高保真环境感知）[1] - 行业面临传感器成本与效率的平衡挑战：传统多模态方案依赖LiDAR、RaDAR等昂贵设备，纯视觉方案虽成本低但需解决稀疏视角和动态物体带来的重建难题[3] - 现有渲染技术存在局限：神经渲染方法（如NeRF、3D高斯溅射3DGS）在静态场景中表现出色但无法满足实时性需求，而动态场景方案（如EmerNeRF、Driv3R）存在离线优化、计算负担重及细节丢失问题[3] - 静态前馈方案（如DrivingForward、pixelSplat）因假设场景无动态，在面对移动目标时会产生严重伪影，难以适配真实驾驶场景[1] 核心创新点 - 提出静到动两阶段训练范式：先学习鲁棒的静态场景先验并冻结静态网络，再训练动态模块，以解决端到端训练的不稳定性并降低动态建模复杂度[4] - 设计混合共享架构的残差流网络：采用共享深度编码器学习通用运动先验，配合轻量化单相机解码器预测动态物体的非刚性运动残差，兼顾跨视角一致性与计算效率[4] - 构建纯视觉在线前馈框架：仅输入两帧连续环视图像即可实时输出3D高斯点云、深度图、场景流等多任务结果，无需离线优化或多模态传感器[4] 主要技术方案 - 整体框架输入两帧连续环视图像，先通过静态模块生成3D高斯表示的静态场景，再通过残差流网络预测动态运动，最终融合生成4D动态场景[7] - 静态场景几何与外观建模以3D高斯溅射（3DGS）为核心，每个高斯基元定义包含3D空间均值（位置）、协方差矩阵（形状）、不透明度及球谐函数系数（外观）[9][11][16] - 通过深度网络（D）和高斯参数网络（P）两个前馈网络直接预测高斯参数，所有相机视角的高斯基元转换到世界坐标系拼接为统一静态场景表示[12][16] - 动态建模基于残差场景流，将总运动场分解为刚性运动（由自车运动引发）和非刚性残差运动（由动态物体运动引发），通过残差流网络预测后者[13][17] - 残差流网络采用粗到细优化策略，包含共享深度编码器、单相机金字塔解码器和输入适配层，以有效处理大位移运动并确保跨视角尺度一致性[18] 实验验证与结果分析 - 实验在nuScenes数据集上进行，图像分辨率352×640，使用NVIDIA RTX5090 GPU，训练采用两阶段策略各6轮[21][25] - 在新视图合成任务上，该方法PSNR达28.76，较Driv3R（26.10）提升2.66dB，SSIM达0.895，显著高于Driv3R（0.808）[26][28] - 在深度预测任务上，几何准确性优于Driv3R：Abs Rel为0.227 vs 0.234，Sq Rel为2.195 vs 2.279，RMSE为7.254 vs 7.298[26][29] - 在效率与模型复杂度上，推理速度达0.21秒/帧，比DrivingForward（0.34秒）快38%，比Driv3R（0.71秒）快70%，模型参数仅0.117GB，为Driv3R（2.512GB）的4.6%[30] - 训练成本约为5天，VRAM占用27.3GB，远低于Driv3R的7.5天和175.5GB[30] - 定性结果显示该方法能生成边缘清晰、时序一致的动态物体重建结果，并能有效分解运动场，准确定位动态物体[31] - 消融实验验证了核心设计的必要性：去除残差流网络后PSNR和SSIM显著下降，替换为端到端训练后渲染质量大幅退化，去除流场扭曲损失后多任务一致性下降[31][32][34]