多视角图像生成 - 财报，业绩电话会，研报，新闻

多视角图像生成

搜索文档

上海期智&清华！BEV-VAE：首个自监督BEV视角的VAE，从图像到场景生成跃迁~

自动驾驶之心· 2025-07-08 20:45

核心观点 - BEV-VAE通过结构化BEV隐变量空间实现多视角图像生成与操控，显著提升自动驾驶场景生成的空间一致性与可控性 [2][4][5] - 该方法突破传统以图像为单位的生成范式，直接以三维场景为单位建模，支持任意相机配置下的新视角合成与对象编辑 [5][6][13] - 在nuScenes和AV2数据集上验证显示，隐变量维度提升至32时PSNR达26.32/26.68，SSIM达0.7455/0.8004，优于SD-VAE基准 [22][23] 技术架构双阶段设计 - **重建阶段**：通过Transformer编码器将多视角图像压缩为BEV隐变量，解码器重建时保持空间一致性，隐变量维度从4到32逐步提升信息容量 [7][10][12] - **生成阶段**：采用Diffusion Transformer在BEV空间去噪，通过Classifier-Free Guidance实现可控生成，支持15°视角旋转调整 [8][11][13] 关键组件 - 编码器包含图像/场景/状态三模块，解码器通过对抗损失优化生成质量，联合训练KL散度/重建/对抗损失 [7][8] - 判别器采用StyleGAN结构，确保生成图像真实度，消融实验显示隐变量维度32时FID降至13.72/3.02 [22][25] 性能表现数据集对比 - **nuScenes**：155K×6视图训练，隐变量32维时MVSC+指标达0.9291，接近SD-VAE水平但训练数据量仅0.1% [22][23] - **AV2**：224K×7视图训练，同参数下PSNR提升3.19，验证数据规模规律（Scale Law）的有效性 [22][28] 基准测试 - 在零额外先验条件下，BEV-VAE w/DiT的FID为21.14，显著缩小与基于Stable Diffusion微调方法的差距（DriveWM为12.99） [25] - 对象编辑实验中，移除特定车辆后生成图像无空洞，证明三维结构建模能力 [18][19][20] 应用优势 - **跨平台兼容**：解耦空间建模与生成过程，适配不同相机数量/位姿配置，实现零成本算法迁移 [5][28] - **效率提升**：相比传统数据采集，可低成本生成场景变体（如车辆增减），加速端到端模型训练 [4][18] - **扩展性**：BEV隐变量天然支持NeRF、Occupancy等三维任务，降低世界模型构建门槛 [28][31]