DrivingScene
搜索文档
理想DrivingScene:仅凭两帧图像即可实时重建动态驾驶场景
自动驾驶之心· 2025-11-02 00:04
研究背景与挑战 - 自动驾驶系统的安全性和可靠性高度依赖4D动态场景重建(3D空间+时间维度)[1] - 行业面临传感器成本与效率的平衡挑战:传统多模态方案(如LiDAR、RaDAR)精度高但成本昂贵,纯视觉方案成本优势明显但需解决稀疏视角和动态物体带来的重建难题[3] - 现有渲染技术存在局限:神经渲染方法(如NeRF、3DGS)在静态场景重建中表现出色但受限于逐场景离线优化范式,无法满足实时性需求;动态场景方案(如EmerNeRF)同样存在离线问题,端到端动态建模方法(如Driv3R)则因未解耦静态与动态成分而导致计算负担重和重建细节丢失[3] 核心创新点 - 采用静到动两阶段训练范式:先从大规模数据中学习鲁棒的静态场景先验,冻结静态网络后再训练动态模块,彻底解决端到端训练的不稳定性并降低动态建模复杂度[4] - 设计混合共享架构的残差流网络:采用共享深度编码器+单相机解码器结构,共享编码器学习通用运动先验,轻量化单相机解码器适配不同相机参数,仅预测动态物体的非刚性运动残差[4] - 构建纯视觉在线前馈框架:仅输入两帧连续环视图像即可实时输出3D高斯点云、深度图、场景流等多任务结果,无需离线优化或多模态传感器[4] 技术方案与框架 - 静态场景几何与外观建模以3D高斯溅射(3DGS)为核心,每个高斯基元定义为位置、形状、不透明度和外观参数,通过两个前馈网络直接预测高斯参数[5][9] - 动态建模基于残差场景流,将总运动场分解为刚性运动(由自车运动引发)和非刚性残差运动(由动态物体引发),通过残差流网络预测[6][10] - 采用两阶段训练策略:阶段1仅训练深度网络与高斯参数网络,阶段2冻结静态网络仅训练残差流网络,分别使用不同的损失函数确保视觉保真度和运动渲染一致性[11][12][15] 实验验证与性能 - 在新视角合成任务中,该方法PSNR达28.76,较Driv3R(26.10)提升2.66dB,较DrivingForward(26.06)提升2.7dB;SSIM达0.895,显著高于对比方案[13][20] - 在深度预测任务中,几何准确性优于Driv3R:Abs Rel为0.227 vs 0.234,Sq Rel为2.195 vs 2.279,RMSE为7.254 vs 7.298[17][21] - 效率方面实现推理速度0.21秒/帧(6路环视图像),比DrivingForward(0.34秒)快38%,比Driv3R(0.71秒)快70%;模型参数仅0.117GB,为Driv3R(2.512GB)的4.6%[18] 消融实验与定性分析 - 去除残差流网络后模型退化为静态版,PSNR从28.76降至26.40,SSIM从0.895降至0.780,证明动态建模对真实场景重建的关键作用[19][25] - 替换两阶段训练为端到端训练后,模型渲染质量大幅退化,PSNR降至13.69,SSIM降至0.334,凸显静态先验的基础价值[19][25] - 在动态物体重建方面,该方法可生成边缘清晰、时序一致的结果,而DrivingForward因静态假设会产生明显重影,Driv3R虽能捕捉动态但细节模糊[19]