IAL

搜索文档
ICML'25 | 统一多模态3D全景分割:图像与LiDAR如何对齐和互补?
自动驾驶之心· 2025-07-16 19:11
核心观点 - 提出IAL(Image-Assists-LiDAR)方法,实现高效的多模态3D全景分割,通过激光雷达与相机图像的互补优势提升检测精度 [2] - IAL在nuScenes和SemanticKITTI数据集上达到SOTA性能,PQ指标最高提升5.1%,刷新户外3D全景分割纪录 [7][16] - 核心技术突破包括PieAug模态同步增强、GTF精准特征融合和PQG三重查询生成机制 [4][7] 方法创新 PieAug模态同步增强 - 首创通用LiDAR与图像数据同步增强范式,解决传统方法因单模态增强导致的多模态不对齐问题 [9] - 采用"切蛋糕"策略将场景切割为扇形切片,通过实例级和场景级混合增强实现跨模态对齐 [9] - 兼容现有LaserMix/PolarMix等LiDAR-only增强方法,提升训练效率与泛化性 [7][9] GTF特征融合模块 - 通过物理点投影避免虚拟中心点导致的特征偏差,构建尺度感知位置编码 [10] - 解决传统方法因体素级投影和传感器感受野差异导致的位置偏差与语义错误 [10] PQG查询初始化 - 三重查询生成机制:几何先验query(BEV热力图)、纹理先验query(2D VFM)、无先验query(可学习参数) [12] - 提升远距小目标召回率,避免传统可学习query陷入局部最优 [12] 性能表现 基准测试结果 - nuScenes-Panoptic官方榜单第一:PQ 82.0、PQT 84.3、RQ 89.3、SO 91.6,全面超越4DFormer(L+C)和LCPS(L+C) [14] - 单模态LiDAR分支性能:PQ 75.1,已超过EfficientLPS(62.4)和PolarNet(63.6) [14] 模块消融实验 - 完整IAL模型(PieAug+GTF+PQG)相比基线(无模块)PQ提升6.6个百分点(75.7→82.3) [15] - 单独GTF模块可使mloU提升4.4个百分点(73.8→78.2) [15] 可视化优势 - 显著提升紧邻目标区分度、远距目标检测能力以及FP/FN识别准确性 [17]