核心观点 - Meta发布全新开源视觉模型DINOv3,首次证明自监督学习模型在广泛任务中超越弱监督学习模型 [1] - DINOv3采用无标注方法,数据规模扩展至17亿张图像,模型规模扩展至70亿参数 [1] - 该模型在缺乏标注或跨领域场景中表现绝对领先,并在计算机视觉三大核心任务(分类、检测、分割)上实现SOTA [3] 技术突破 - 采用创新的自监督学习方法,专注于生成高质量高分辨率视觉特征 [6] - 首次实现单一冻结视觉骨干网络在多项密集预测任务中超越专门化解决方案的性能 [6] - 引入"Gram anchoring"新方法解决训练中密集特征图退化问题,显著提升局部特征质量 [8][15] 训练方法 - 构建包含17亿张图片的预训练数据集,主要来自Instagram公开图片和少量ImageNet图片 [10][11] - 采用判别式自监督方法,通过Sinkhorn-Knopp算法和Koleo正则稳定特征分布 [11] - 模型参数从11亿扩展至70亿,增强骨干网络表示能力 [11] - 引入RoPE-box jittering使模型对分辨率、尺度和长宽比变化更具鲁棒性 [13] 性能表现 - 在ADE-20k分割任务中达到55.9,相比DINO的31.8和DINOV2的49.5有显著提升 [4] - 在NYU深度估计任务中达到0.309,优于DINO的0.537和DINOV2的0.372 [4] - 在DAVIS视频跟踪任务中达到83.3,相比DINO的68.7和DINOV2的76.6有明显进步 [4] - 在ImageNet ReaL分类任务中达到90.4,接近SIGLIP 2的90.5 [4] 应用场景 - 消除研究人员为特定任务对模型进行微调的必要 [23] - 通过蒸馏构建开发环境友好的模型矩阵,包括ViT和ConvNeXt架构 [23] - 在卫星影像分析中,将肯尼亚某地区树冠高度测量的平均误差从4.1米降低至1.2米 [28] - 在多个遥感任务中取得SOTA,包括语义地理空间任务和高分辨率语义任务 [29] 发展历程 - 从DINO初步研究使用100万张图像训练8000万参数模型 [38] - 到DINOv2基于1.42亿张图像训练1B参数模型 [38] - 再到DINOv3的70亿参数和17亿张图片 [38] - 标志着视觉模型大规模自监督训练的持续进步 [30]
小扎又开源了:7B实现自监督学习SOTA