Workflow
任意视角图像生成
icon
搜索文档
清华最新SOTA!ArbiViewGen:自监督框架实现多车型任意视角可控图像生成~
自动驾驶之心· 2025-08-11 07:32
核心观点 - 提出ArbiViewGen框架,用于自动驾驶场景中任意视角图像生成,解决外推视角缺乏真实数据的问题 [4][9] - 采用特征感知自适应视角拼接(FAVS)和跨视角一致性自监督学习(CVC-SSL)两大核心模块 [9][10] - 在nuScenes数据集上验证,性能优于基线方法,PSNR达14.2335,SSIM达0.9691 [14][15] 研究动机与贡献 - 自动驾驶行业面临多源传感器系统异构配置带来的数据复用挑战 [5] - 现有方法依赖目标视角真实监督,难以适应自动驾驶场景非结构化数据分布 [6] - 首次实现多种车辆异构配置中可控任意视角相机图像生成 [4] 方法总览 - FAVS模块通过分层优化策略实现六相机图像到任意目标视角的高质量拼接 [9] - CVC-SSL模块基于潜在扩散模型,引入几何引导跨视角注意力机制 [10] - 仅需多相机图像及其姿态信息,无需额外传感器或深度图 [3] 技术细节 - FAVS包含几何变换建立、特征匹配优化、目标对齐微调、自适应融合生成四阶段 [9] - CVC-SSL通过循环重建自监督范式克服新颖视角缺乏监督的问题 [13] - 提出图像质量评估策略,投影彩色点云建立定量评估框架 [13] 实验结果 - 定量指标全面优于基线:PSNR提升48.8%(9.5647→14.2335),MAE降低47.2%(72.4672→38.2820)[14] - 消融实验显示FAVS和CVC-SSL分别带来27.4%和19.9%的PSNR提升 [15] - 可视化结果展示更好的结构一致性和空间完整性 [18] 应用前景 - 增强自动驾驶系统在不同传感器配置中的适应性和鲁棒性 [23] - 促进跨平台部署和可扩展数据重用,降低开发成本 [5][23] - 未来将整合激光雷达深度先验和语义一致性约束以提升质量 [23]