开放词汇分割（Open-Vocabulary Segmentation

搜索文档

自动驾驶之心· 2025-07-27 22:41

核心观点 - 提出Talk2DINO模型通过非线性映射函数对齐DINOv2视觉嵌入空间与CLIP文本嵌入空间解决开放词汇分割任务中视觉语言模型空间定位能力不足与自监督视觉模型缺乏语言整合的问题[1][3][5] - 采用无需微调骨干网络的训练模式仅学习少量参数即可实现最先进的性能表现在多个基准数据集上平均mIoU达到42.7（ViT-Base）和42.3（ViT-Large）[5][20][23] - 创新性引入基于DINOv2自注意力头的背景清理程序通过相似度图与背景清理图的凸组合增强分割效果背景区域识别阈值设为0.55[17][18][23] 技术方法 - 学习非线性投影函数由两个仿射变换与双曲正切激活函数组合而成将CLIP文本嵌入映射到DINOv2视觉补丁嵌入空间[12][13] - 利用DINOv2最后一层提取N个注意力图通过加权平均计算视觉嵌入采用最大相似度分数选择机制实现文本与视觉表示的稳健对齐[9][13][15] - 使用InfoNCE损失函数优化对齐效果将批次内图像文本对作为正负例进行对比学习批次大小设置为128[15] 性能表现 - 在无掩码细化条件下 ViT-Base模型在Pascal VOC/Pascal Context/COCO Stuff/Cityscapes/ADE20K数据集分别达到85.3/40.5/27.9/38.2/21.8 mIoU 平均42.7[20] - 采用掩码细化后 ViT-Large模型在相同数据集达到88.7/43.2/30.0/39.3/23.4 mIoU 平均44.9 显著优于FreeDA（44.0）和ProxyCLIP（41.8）[20][23] - 在含背景类别的三个基准测试中 ViT-Base模型在Pascal VOC/Pascal Context/COCO Object分别取得65.9/38.4/44.6 mIoU 全面领先对比模型[24][25] 模型优势 - 参数效率显著优于竞争对手在保持更高平均mIoU的同时参数量少于FreeDA和ProxyCLIP模型[37] - 支持多种ViT架构规模 ViT-Small骨干网络在五个基准测试中仍能达到35.3/24.6/28.3/17.0 mIoU[27][30] - 背景清理程序对前景类别分割效果提升显著在Pascal VOC和COCO Object数据集分别提升3.8和3.9 mIoU[33][37] 实验验证 - 消融实验证实非线性投影的必要性使用线性投影会导致性能下降单一全连接层仅能达到84.5 mIoU（VOC）[31][32] - 自注意力选择机制验证表明最大相似度选择策略在所有基准测试中表现最优尤其在Pascal Context数据集达到40.5 mIoU[31][32] - DINOv2寄存器分析显示移除寄存器会导致性能下降伪影现象会影响注意力头选择机制在ViT-L架构中差异最显著[37]

OVS）

Artificial Intelligence

Talk2DINO

开放词汇分割（Open-Vocabulary Segmentation

OVS）

Artificial Intelligence

Talk2DINO