自动驾驶3D语义占用预测技术 - 3D语义占用预测通过为每个3D体素分配标签来建模环境几何和语义,相比传统3D目标检测和语义分割对任意形状和动态遮挡具有更强鲁棒性 [1] - 现有单模态方法存在明显局限:基于相机的方法缺乏深度信息,基于LiDAR的方法受遮挡影响;轻量级方法依赖LSS流水线但BEV特征稀疏且计算量大 [2] - 多模态融合方法计算负担重影响实时应用,需要解决外参冲突导致的特征错位问题 [2][11] SDG-OCC技术创新 - 提出语义和深度引导的视图转换方法,利用LiDAR稀疏深度信息在相同语义类别内扩散生成高精度虚拟点种子,相比LSS流水线显著提升深度估计精度和速度 [16][18][19] - 设计动态邻域特征融合模块,通过门控注意力机制从交叉特征中单向提取邻域特征,解决激光雷达和图像BEV特征错位问题 [23][24] - 采用占用驱动的主动蒸馏策略,基于活跃区域(AR)和非活跃区域(IR)的相对大小应用自适应缩放,平衡知识蒸馏重点 [24] 性能表现 - 在Occ3D-nuScenes数据集上实现SOTA性能:SDG-Fusion模型mIoU达51.66%,推理时间仅133ms;SDG-KL模型mIoU达50.16%,推理时间83ms [28][29] - 在SurroundOcc-nuScenes验证集上:SDG-Fusion模型mIoU达52.2%,SDG-KL模型mIoU达50.4%,优于现有方法 [29][31] - 消融实验显示:集成SDG视图转换使mIoU提升10.67%,结合激光雷达融合后mIoU比基线高13.82% [34][35] 技术实现细节 - 使用ResNet-50作为图像骨干网络,SPVCNN作为激光雷达骨干网络,在RTX 4090 GPU上训练 [27] - 占用网格设置:Occ3D-nuScenes为80m×80m×6.4m范围,0.4m体素;SurroundOcc-nuScenes为100m×100m×8m范围,0.5m体素 [30] - BEV编码器使用残差块进行多尺度特征扩散,占用预测头包含通道到高度的转换模块,将BEV特征从(B,C,H,W)重塑为(B,C,D,H,W) [25]
SOTA!华科SDG-OCC:基于语义和深度引导的BEV多模态OCC新方案(ICCV'25)
自动驾驶之心·2025-07-24 12:07