Workflow
吞下17亿图片,Meta最强巨兽DINOv3开源,重新定义CV天花板
Meta PlatformsMeta Platforms(US:META) 36氪·2025-08-15 15:29

技术突破 - Meta推出DINOv3视觉模型,通过自监督学习(SSL)训练,无需人工标注,使用17亿张图片训练出70亿参数的视觉主干网络 [1] - DINOv3在多个密集预测任务中首次超越专用解决方案,刷新或逼近多项基准测试最佳成绩 [1] - 模型参数规模达70亿,训练数据量比前代提升12倍,在15项视觉任务和60多个基准测试中表现优异 [19] 性能表现 - 在ADE-20k分割任务中达到55.9分,相比DINOv2的49.5分有显著提升 [2] - 深度估计任务NYU I误差降至0.309,优于DINOv2的0.372 [2] - 视频跟踪DAVIS得分83.3,实例检索Met得分55.4,均大幅领先前代 [2] - ImageNet ReaL分类准确率达90.4%,与当前最优弱监督模型相当 [2][23] 应用场景 - NASA已将DINOv3应用于火星探测机器人,实现低资源多任务视觉处理 [3][24] - 世界资源研究所使用DINOv3监测森林砍伐,树冠高度测量误差从4.1米降至1.2米 [16][17] - 适用于医疗影像、卫星遥感、自动驾驶等领域,特别适合标注稀缺场景 [10][15] 技术特点 - 采用完全开源策略,包含预训练模型、适配器、训练代码等全流程资源 [6][9] - 支持高分辨率特征提取,能生成包含可测量属性的像素级密集特征 [21] - 无需微调即可直接应用于下游任务,多个任务可共享计算开销 [22][24] - 提供从轻量级到高性能的模型家族,包括ViT和ConvNeXt等多种架构 [26] 行业影响 - 首次证明自监督学习模型能超越弱监督模型,减少对人工标注的依赖 [11][12] - 推动计算机视觉领域范式转变,加速医疗、环保、制造等行业的视觉应用 [10] - 开源策略降低技术门槛,促进社区在视觉基础模型上的创新 [6][26]