自监督学习(SSL)

搜索文档
Meta王炸DINOv3:视觉自监督新巅峰!7B模型狂揽多任务SOTA
自动驾驶之心· 2025-08-17 00:04
自监督视觉模型DINOv3的技术突破 - 彻底摆脱对人工标注数据的依赖 实现仅通过观察世界就能学习强大视觉理解能力的自监督学习终极目标 [4] - 通过Gram Anchoring策略解决大规模模型训练中密集特征退化问题 在10万轮内将VOC分割mIoU提升3+ [24][25] - 采用固定超参数训练100万轮 突破传统动态调度限制 使ViT-7B全局性能随训练轮次稳步提升 [21][22] 数据构建与训练策略 - 从170亿张图像中通过三层筛选构建16.89亿张高质量训练集LVD-1689M 包含聚类选多样/检索补相关/公开数据提精度三个层级 [16][20] - 采用10%纯ImageNet1k与90%混合数据的采样策略 在IN1k线性探测达87.2% ObjectNet达72.8% 全面超越纯聚类或原始数据 [16] - 使用7B参数ViT架构 嵌入维度提升至4096 采用16像素patch与轴向RoPE编码 增强对分辨率与尺度的鲁棒性 [28] 多分辨率与跨领域适配 - 支持4096×4096超高清推理 在768×768分辨率下IN1k精度提升0.5% ADE20k分割mIoU提升2.1% [26][31] - 专为卫星图像训练DINOv3-Sat模型 在树冠高度估计任务MAE达3.2 超越多光谱输入模型 [50][52] - 通过高分辨率适配阶段处理医疗影像与卫星图像 特征图在4096×4096分辨率下仍保持语义清晰度 [26][31] 模型压缩与部署优化 - 采用单教师-多学生并行蒸馏技术 训练参数量840M的ViT-H+模型 IN1k精度90.3% 接近7B教师但推理速度快5倍 [35] - ConvNeXt系列适配移动端 ConvNeXt-L在512分辨率下IN-ReAL精度达89.4% 超监督模型1.6% [35] - 通过冻结视觉encoder实现文本对齐 在ImageNet1k零样本分类达82.3% 开放词汇分割mIoU 24.7% [36] 性能表现基准测试 - 密集任务全面领先:ADE20k分割mIoU 55.9超DINOv2的6.4 NYUv2深度估计RMSE 0.309超DINOv2的0.063 [42][44] - 全局任务媲美监督模型:ImageNet线性探测精度88.4% ObjectNet达79.0超DINOv2的12.6 [47] - 视频跟踪任务DAVIS数据集J&F 83.3超DINOv2的6.7 且性能随分辨率提升持续增长 [45][46] 行业应用场景 - 工业检测领域采用ViT-L处理高分辨率产品图像实现缺陷分割 [52] - 自动驾驶领域使用ConvNeXt-B实时输出道路语义分割结果 [52] - 卫星遥感领域应用DINOv3-Sat分析4K图像监测森林覆盖变化 LoveDA分割mIoU 55.3超BillionFM的0.9 [52]