Workflow
ReCamDriving
icon
搜索文档
中山&港科纯视觉方案:3DGS实现高精轨迹视频生成
自动驾驶之心· 2025-12-22 08:42
文章核心观点 - 中山大学与香港科技大学的研究团队提出了一种名为ReCamDriving的全新方法,用于从单条真实驾驶视频生成另一条相邻轨迹的视频,该方法不依赖LiDAR,完全基于视觉,并利用3D Gaussian Splatting(3DGS)实现精确的相机控制和结构引导,旨在解决自动驾驶领域多轨迹视频数据采集成本高、不一致的难题 [5][6][34] 技术方法创新 - 该方法的核心创新在于放弃使用稀疏、不完整的LiDAR数据,转而采用密集、完整、覆盖全场景的3DGS渲染结果作为相机控制和几何约束条件 [10][11][14] - 研究团队设计了一套两阶段训练策略:第一阶段仅使用相对相机位姿训练模型,建立基本的视角变换能力;第二阶段冻结核心参数,引入3DGS渲染特征进行精细引导,防止模型退化为单纯的“伪影修复器” [12][18][20] - 为了解决缺乏真实新轨迹视频作为监督数据的问题,团队提出了跨轨迹数据构造策略,利用3DGS渲染生成横向偏移的视频作为输入,并以原始真实视频作为监督,据此构建了包含超过110,000个平行轨迹视频对的ParaDrive数据集 [22][26][27] 性能表现与优势 - 在Waymo和nuScenes数据集上的实验表明,ReCamDriving在相机控制精度上显著优于对比方法,例如在横向偏移±1米时,其旋转误差(RErr.)为1.32度,平移误差(TErr.)为2.37厘米,优于其他方法 [29] - 在视觉质量和视角一致性方面,该方法也表现优异,在横向偏移±1米时,其FID分数为13.76,FVD分数为13.27,CLIP-V分数为97.96,均显著优于对比的修复型方法(如Difi x3D+)和依赖LiDAR的方法(如StreetCrafter) [29][30] - 随着横向偏移增大,该方法在几何一致性上表现更稳定,下降更缓,例如在偏移±4米时,其FID为32.36,而对比方法StreetCrafter的FID为68.73,Difi x3D+为78.08 [29] - 在nuScenes数据集上的平均性能也验证了其泛化能力,其FID为25.68,FVD为18.98,CLIP-V为96.14,均优于对比方法 [31] 行业应用与意义 - 该技术为自动驾驶领域提供了一种低成本、高效率的数据扩充方案,能够生成高质量、多视角的驾驶视频,这对于3D重建的完整性、世界模型和规划系统的泛化能力至关重要 [4][36] - 该方法代表了一种趋势,即新轨迹视频生成应从“事后画面修复”转向对“相机与几何关系”的本质建模,为自动驾驶仿真数据生成和模型训练提供了新的技术思路 [34][36]