Semantic Occupancy
搜索文档
上交OccScene:3D OCC生成新框架(TPAMI)
自动驾驶之心· 2025-10-23 08:04
研究背景与核心问题 - 自动驾驶系统研发高度依赖高质量、大规模的标注数据来训练感知模型,但数据获取成本高昂、费时费力[2] - 传统方法将生成模型和感知模型作为两个独立环节处理,导致生成的合成数据可能不符合真实世界的物理规律和几何结构,对下游感知任务价值有限[2] - OccScene旨在解决生成与感知"学用脱节"的问题,实现两者的深度融合[2] 核心创新与贡献 - 首次实现3D场景生成与语义Occupancy感知的深度融合,通过联合扩散框架达到"1+1>2"的效果[3] - 提出范式创新的联合学习框架,感知模型为生成提供精细几何与语义先验,生成的合成数据反哺感知模型,形成良性循环[5] - 设计基于Mamba的双重对齐模块,高效对齐相机轨迹、语义Occupancy与扩散特征,确保生成内容的跨视角一致性和几何精确性[5][14] - 仅需文本提示即可同时生成高质量图像/视频及对应的3D语义占据信息,并能显著提升现有SOTA感知模型性能[5] 技术架构与实现方法 - 采用联合感知-生成扩散框架,将语义Occupancy预测与文本驱动生成统一到单个扩散过程中[8] - 实施两阶段训练策略:第一阶段冻结感知模型权重,训练扩散UNet理解Occupancy几何约束;第二阶段联合优化,同时训练扩散UNet和感知模型实现双向促进[9][10] - 设计动态加权损失函数,通过噪声水平进行动态加权,在去噪早期感知监督权重较低,随着图像变清晰监督权重逐渐增强,确保训练稳定性[11][13] - 推理过程采用独特的闭环自我优化机制,实现"边生成、边感知、边校正",确保最终生成结果的几何一致性和语义准确性[17][19] 性能表现与实验结果 - 在NYUv2室内数据集上,OccScene的FID指标为15.54,显著优于SD的47.82和ControlNet的50.61[21] - 在NuScenes室外数据集上FID为11.87,在SemanticKITTI数据集上FID为19.86,FVD为113.28[21] - 作为数据增强策略可显著提升感知模型性能:在NYUv2数据集上使MonoScene的mIoU从26.94提升至29.78;在SemanticKITTI数据集上使TPVFormer的mIoU从7.8提升至12.2[25] - 消融实验显示联合学习策略相比离线生成,在FID指标上从28.52提升至19.86,mIoU从12.94提升至15.70[27] - Mamba-based MDA模块相比Attention架构推理时间从4.09秒减少至2.76秒,节省32.5%的时间[27] 应用价值与行业影响 - 为自动驾驶仿真生成高保真、多样化的驾驶场景,特别是各种极端场景,以低成本增强系统鲁棒性[32] - 为机器人与AR/VR领域的室内外场景导航、交互提供可控、可编辑的虚拟环境[32] - 作为即插即用的数据生成器,为各类下游3D视觉任务提供高质量训练数据,有效解决数据稀缺问题[32]