文章核心观点 - 由IDEA计算机视觉与机器人研究中心张磊团队提出的OVSeg3R新范式,通过利用成熟的海量2D实例分割数据来辅助训练,成功解决了3D实例分割领域长期存在的训练数据稀缺、标注成本高昂的难题,实现了从“闭集”到“开集”的性能飞跃,并大幅缩小了长尾类与头部类的性能差距[2][3] 3D感知的“卡脖子”难题 - 3D实例分割是自动驾驶、机器人服务等智能场景的“眼睛”,其核心瓶颈在于3D数据的获取和标注成本极高、难度极大[4][5] - 3D数据标注需要处理由无数三维坐标点组成的点云,标注员需在立体模型中逐点勾勒物体轮廓(3D掩码),此操作需要专业3D建模知识且极其耗时,导致3D训练数据在数量和类别丰富度上远落后于2D图像数据[5][6] - 行业现有解决方案存在明显缺陷:1)外挂2D模型分类但3D模型发现新物体的能力无提升;2)多视角2D结果聚合的启发式算法脆弱,易受遮挡和噪声影响;3)3D高斯技术需针对每个场景单独优化,无法通用[7][8][9] OVSeg3R的技术原理 - 核心思路是让3D模型向成熟且数据丰富的2D模型学习,关键连接技术是3D重建,通过其降低数据获取成本,并利用2D与3D的映射关系,将2D识别结果自动生成3D训练标注,形成数据闭环[10] - 需解决两大关键难题:1)3D重建结果平滑,导致几何结构不突出的物体(如薄纸巾)与背景融合;2)简单投影会导致同一3D实例产生过多重复标注,影响训练稳定性[11] - 学习范式分为三个阶段:1)基本数据准备:输入场景视频,分别通过3D重建模型生成点云及2D-3D对应关系,以及通过2D分割模型获得2D实例分割结果与类别名称[12][15];2)模型输入和标注准备:将2D知识转化为3D资料,通过“基于实例边界的超级点(IBSp)”划分点云,并生成分视角标注,解决了平滑和重复标注问题[16][17];3)模型学习:基于SegDINO3D拓展的SegDINO3D-VL模型,通过“特征提取-解码-监督学习”三个环节,并采用“视角级实例划分(VIP)”策略进行监督,使模型掌握开集分割能力[19][20] 性能表现与优势 - 在极具挑战性的ScanNet200 3D实例分割基准测试中,OVSeg3R的mAP达到40.7,mAP50达到53.0,mAP59达到59.5,不仅大幅超越所有现有开集模型,同时刷新了闭集模型的最新记录[21] - OVSeg3R将长尾类与头部类的性能差距从11.3 mAP骤缩至1.9 mAP,彻底改善了类别性能不均衡问题[21] - 在标准开集设定下(仅用20类人工标注训练,在200类上测试),OVSeg3R在novel类别上的性能(mAPn)达到24.2,较此前最优方法飙升7.7 mAP,开集识别能力呈现显著优势[22][23] - 对于几何结构稀疏(如三脚架)以及细小物体(如瓶子、鼠标),OVSeg3R能稳定识别并分割出来,克服了现有数据集中这些类别标注严重缺失导致的算法缺陷[23][25] 应用场景与产业前景 - OVSeg3R有望广泛应用于自动驾驶、智能家居、机器人导航等需要精准3D场景理解的领域[3] - 在具身智能领域,OVSeg3R正在打破“数据成本”与“开放世界”双重壁垒,通过消除对昂贵人工3D标注的依赖,利用3D重建与2D基础模型从原始视频自动生成高质量语义标签,显著降低了机器人感知系统的训练与迁移成本[27] - 在语义导航与长程规划中,其开集识别优势能精准定位训练集中未见的“长尾”物体(如电源插座、三脚架),确保机器人自主充电与避障的安全性[28] - 在精细操作场景下,OVSeg3R利用2D视觉的丰富纹理弥补3D几何不足,能为机器人抓取与导航应用奠定空间感知基础[29] - 该技术作为一种可扩展的“数据引擎”,将海量视频转化为机器人的3D语义知识,为构建低成本、高泛化的通用具身智能系统铺平道路[29] - 该技术成果的产业转化已取得进展,并由IDEA孵化企业视启未来主导推动落地[30]
用2D先验自动生成3D标注,自动驾驶、具身智能有福了丨IDEA团队开源
量子位·2026-01-17 10:53