AutoOcc

搜索文档
ICCV 2025 Highlight | 3D真值生成新范式,开放驾驶场景的语义Occupancy自动化标注!
机器之心· 2025-08-29 08:15
研究团队与背景 - 研究成果由北京大学王选计算机研究所VDIG实验室开发,第一作者为博士生周啸宇,通讯作者为博士生导师王勇涛副研究员[2] - 实验室在IJCV、CVPR、AAAI、ICCV、ICML、ECCV等顶会发表多项重量级成果,多次荣获国内外CV领域竞赛冠亚军奖项[2] - 论文已被ICCV 2025录用为Highlight[2] 技术框架与创新 - AutoOcc是开放自动驾驶场景的高效高质量三维语义占据栅格真值标注框架,无需人类标注即可超越现有自动化标注管线[2][5] - 利用视觉-语言模型生成语义注意力图描述场景并动态扩展语义列表,通过自估计光流模块处理动态物体[5][17] - 提出具有开放语义感知的3D高斯表示(VL-GS),实现自动驾驶场景的完整三维几何和语义建模[6][17] - 支持环视驾驶场景图像序列输入,可选LiDAR点云提供几何先验约束[13] - 相比基于点云体素化和语义投影的方法,具备更强鲁棒性和开放式语义标注能力[21] 性能表现 - 在Occ3D-nuScenes数据集上超越现有最先进的语义占据栅格预测和真值生成模型[20][21] - 在SemanticKITTI跨数据集评估中展现卓越零样本泛化能力,mIoU-base指标达17.03[20][22][23] - 在极端天气条件(雨天/雾天/黑夜)下实现完整语义占据标注,反光路面区域也能正确重建[23][27] - 计算效率显著提升:仅需约30 GPU小时和5.0G内存,相比SurroundOcc的1000+ GPU小时和73G内存大幅优化[24][25] 行业应用价值 - 解决传统人工标注管线需4000+人时的高成本问题,以及极端环境下的误标注问题[8][25] - 突破有监督方法对大规模人工标注数据的依赖,显著提升泛化能力[8][22] - 支持开放词汇三维语义感知,可动态扩展语义类别而不受预设类别限制[5][22]