自监督学习
搜索文档
LeCun在Meta的最后一篇论文
36氪· 2025-11-14 11:04
LeJEPA方法核心创新 - 提出潜在欧几里得联合嵌入预测架构(LeJEPA),通过使嵌入空间遵循特定统计分布来提升预测性能[2] - 核心创新是草图化各向同性高斯正则化(SIGReg),这是一种可处理、可证明正确的正则化方法,通过单变量方向检验结合Epps-Pulley测试判断嵌入分布匹配程度[6] - 研究表明各向同性高斯分布是嵌入空间的最佳分布,可在没有任务信息情况下保证最小化偏差和方差,提高下游任务表现[5] 技术优势与实验验证 - 等向高斯分布能够最小化训练过程中的偏差和方差,在总方差相同情况下,非等向分布会导致更高偏差和方差[3] - 在ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等大型架构上进行实验,模型规模接近10亿参数[8] - 实验显示LeJEPA在这些架构上表现超越现有方法,在Galaxy10、Food101等特定领域数据集上直接预训练时超越了基于DINOv2的迁移学习方法[10] JEPA架构发展历程 - JEPA(联合嵌入预测架构)是自监督学习框架,旨在通过嵌入空间联合预测方法提升模型表达和推理能力,与生成式模型不同,仅捕捉依赖关系而不显式生成预测[16] - JEPA可进一步通过分层架构(H-JEPA)增强抽象能力,低层处理短期预测,高层用于长期预测,提高可预测性和减少信息损失[18] - JEPA架构与世界模型密切相关,通过学习状态与动作转移训练世界模型,从当前状态表示推断未来状态表示[20] JEPA系列模型演进 - I-JEPA充分利用Transformer架构灵活性,上下文编码器是ViT仅处理可见上下文块,预测器根据位置标记预测特定位置目标块表示[24] - V-JEPA是I-JEPA在视频领域扩展,将视频视为3D图像,通过屏蔽视频序列token进行训练,V-JEPA 2进一步提升了动作预测和世界建模能力[26][28] - MC-JEPA是JEPA扩展,使其包含运动信息,在视频中使用光流估计学习运动,通过图像视角联合嵌入学习内容,以多任务方式共享编码器[30] 行业影响与人物动态 - LeCun在Meta期间个人被引次数大幅增长至406,919次,占总引用数的93%,深度学习爆发期个人学术影响力显著提升[37] - LeCun已离开Meta并筹集资金创办初创公司,继续推进在世界模型方面的工作,尽管面临从学术研究向商业环境转型的挑战[33] - LeCun2013年加入Meta后推动了公司AI转型,成为行业金字招牌,Meta也为其提供了自由的研究环境,这段合作促进了整个AI领域发展[40]
LeCun在Meta的最后论文?还是共同一作,LeJEPA:JEPAs理论拼图补完
机器之心· 2025-11-14 09:33
文章核心观点 - LeCun团队为联合嵌入预测架构提出了一个全面的理论框架LeJEPA,旨在解决当前JEPA训练方法缺乏理论指导、过程脆弱且易出现表征崩溃的问题[2][4] - 该理论证明各向同性高斯分布是基础模型的最佳嵌入分布,并基于此引入了名为概略各向同性高斯正则化的新型分布匹配目标,使LeJEPA成为一个具有统计最优性且能消除表征崩溃的解决方案[5][6][8] - 实验表明,LeJEPA在超过10个数据集和60多种架构上达到或超过了最先进方法的性能,并在特定领域数据集上显示出优于迁移学习的效果,同时具有理论合理、计算高效、架构稳定等优势[9][10][23] JEPA架构的现有挑战与LeJEPA的理论基础 - 当前JEPA训练方法依赖复杂的启发式方法以防止表征崩溃,这些机制使训练过程复杂、脆弱且对超参数敏感,缺乏理论保证[2][3] - 研究团队证明了各向同性高斯分布是基础模型的最佳嵌入分布,该分布在广泛的下游任务族中能唯一地最小化下游预测风险,为JEPA设计提供了明确的理论优化目标[5] - 基于该理论引入的SIGReg目标通过随机投影和特征函数匹配来高效强制嵌入服从理想的各向同性高斯分布,独特地结合了可证明的正确性与大规模计算效率[6][7] LeJEPA框架的设计与实现 - LeJEPA框架由SIGReg损失和预测损失结合而成,其实现不依赖原型、停止梯度和教师-学生网络,整个PyTorch实现仅需约50行代码,且只包含一个用于平衡预测项与各向同性高斯项的超参数[11][19] - 框架移除了许多传统上用于防止坍塌的启发式方法,如预测器和教师-学生架构,而不会遭受表征崩溃,显示出架构无关的设计优势[27] - 研究指出LeJEPA与现有SSL框架存在理论联系,但通过使用特定的检验避免了可能导致捷径解的设置[20][21] LeJEPA的实证性能表现 - 在ImageNet-1K上预训练并进行线性评估,LeJEPA达到79%的准确率,在特定领域数据集如Galaxy10、Food101上,其领域内预训练效果优于基于DINOv2的迁移学习[10] - 实验涵盖接近10亿参数的模型规模,LeJEPA在不同架构和超参数下均保持高度稳定性,例如在ImageNet-1K上使用小至128的批量大小即可达到有竞争力性能[10][24] - 研究在ImageNet-10上预训练了约50种来自8个不同族的架构,所有模型通过线性探测均达到91.5%到95%的top 1准确率,证明了其架构无关的稳定性[26] LeJEPA的训练特性与扩展性 - LeJEPA的训练损失与下游任务准确率表现出高相关性,斯皮尔曼相关性约为85%,通过简单缩放定律可使相关性达到近99%,为无标签的SSL模型选择提供了可能[30][31][32] - 框架在数据和模型规模上均显示出良好的可扩展性,在ViT-gigantic等大型模型上的训练曲线稳定平滑,且在更大预训练数据集和主干网络上的迁移学习性能持续优于IJEPA等基线[38][39] - 学习到的表示中涌现出具有语义意义的注意力模式,能够实现无监督视频分割,显示出对空间语义和时间结构的捕捉能力[41][43]
LeCun在Meta的最后一篇论文
量子位· 2025-11-13 19:52
论文核心观点 - 论文提出了一种名为LeJEPA的新型自监督学习方法,其核心是通过引入SIGReg正则化,使嵌入空间遵循各向同性高斯分布,从而有效解决表示崩溃问题并提升模型泛化能力[5][6] - LeJEPA是Yann LeCun在Meta任职期间以Meta身份发表的最后一篇公开研究成果,于11月11日在arXiv提交,被视为他在Meta的告别之作[2][4][69] 技术原理与创新 - 传统JEPA框架面临表示崩溃问题,即模型将所有输入映射到单一低维空间,导致嵌入空间样本不可区分[6] - LeJEPA通过最小二乘回归分析表明,各向同性高斯分布能够最小化训练过程中的偏差和方差,在总方差相同的情况下,非等向分布会导致更高偏差和方差[8][9] - 研究提出的SIGReg正则化方法将分布匹配转化为统计假设检验,通过Epps-Pulley测试判断嵌入分布与目标分布的匹配程度[15][16][17] - SIGReg通过两条机制解决高维计算挑战:嵌入函数的Sobolev平滑性保证仅需O(K)个方向切片即可约束整个空间;SGD迭代特性使方向数量很少时也能快速收敛[21][22] 实验验证结果 - 实验在ViT、ConvNeXt、ResNet、MaxViT和Swin Transformer等多种大型架构上进行,模型规模接近10亿参数[20] - LeJEPA在这些架构上表现超越现有方法,保持了训练的简便性和鲁棒性[23] - 在领域特定数据集如Galaxy10、Food101上,LeJEPA在直接目标数据预训练时超越了基于DINOv2的迁移学习方法[24] JEPA架构发展历程 - JEPA是LeCun于2022年提出的自监督学习框架,旨在通过嵌入空间的联合预测提升模型表达和推理能力[28][31] - 与生成式模型不同,JEPA仅捕捉x和y之间的依赖关系而不显式生成y的预测[32] - JEPA可通过分层架构增强抽象能力,低层处理短期预测,高层用于长期预测,提高可预测性和减少信息损失[34][35][36] - JEPA架构发展三年来已产生多个变体:I-JEPA充分利用Transformer架构灵活性处理图像[43][45];V-JEPA将其扩展至视频领域[49][51];V-JEPA 2进一步提升了动作预测和世界建模能力[58][60];MC-JEPA使其能够包含运动信息[61][63] 行业影响与人物背景 - LeCun自2013年加入Meta以来个人被引次数飙升,达到406919次,占总数的93%,其中与三巨头合写的《深度学习》综述贡献超10万次[77][78] - 尽管JEPA架构提供新路径,但毁誉参半,被批评过于抽象难以应用到主流模型,与生成式AI的背离也被部分人归咎于Meta的AI研究失利[67][68] - LeCun已开始筹集资金创办初创公司继续推进世界模型工作,但其过于学术的风格在商业世界的适应性受到关注[72][73]
备受Meta折磨,LeCun依旧猛发论文,新作:JEPAs不只学特征,还能精准感知数据密度
36氪· 2025-10-09 19:39
研究核心发现 - Yann LeCun团队发现自监督模型JEPAs在训练过程中自动掌握了感知数据常见程度的能力,即学习数据的“密度” [1] - 这一发现打破了学界长期认为JEPAs仅学习特征、与数据密度无关的认知 [3] - 研究证明,学习数据密度是JEPAs训练过程中的必然结果,而非偶然 [8] JEPAs模型技术背景 - JEPAs是LeCun团队重点推进的自监督学习框架,核心优势在于无需人工标注即可从海量数据中学习特征规律 [6] - 模型训练包含两个核心目标:latent空间预测和反坍缩 [11] - 反坍缩原本被视为避免特征失效的保障手段,但本研究揭示了其隐藏价值,即能精准学习数据密度 [7][8] JEPA-SCORE工具与应用 - 团队提出关键工具JEPA-SCORE,用于从JEPAs中提取数据密度并量化样本常见度 [10] - JEPA-SCORE计算逻辑简洁高效,仅需获取雅可比矩阵并计算其特征值对数求和,分数越高表示样本越典型 [10] - 该工具具备极强通用性,不限制数据集和JEPAs架构,在ImageNet、MNIST及陌生星云图集上均能精准计算 [11] - 在数据筛选和异常检测的实用测试中,JEPA-SCORE效果优于传统方法 [13] 实验验证 - 在ImageNet数据集中,不同JEPAs模型对典型样本和罕见样本的JEPA-SCORE判定高度重合,证明此为模型共性能力 [11] - 面对未参与预训练的星系图像数据集,其JEPA-SCORE显著低于ImageNet数据,表明模型能精准识别陌生数据 [11] 研究团队 - 此项研究由Yann LeCun与三位Meta FAIR研究员共同完成 [20] - 团队成员包括布朗大学计算机科学助理教授Randall Balestriero、FAIR研究科学家Nicolas Ballas以及FAIR创始成员Michael Rabbat [22][23][25]
自动驾驶基础模型应该以能力为导向,而不仅是局限于方法本身
自动驾驶之心· 2025-09-17 07:33
基础模型在自动驾驶感知领域的革命性变革 - 基础模型正将自动驾驶感知从特定任务深度学习模型转变为海量多样化数据集训练的多功能通用架构 [2] - 这些模型通过自监督或无监督学习策略在大规模数据集上预训练 基于Transformer等架构构建 能有效建模数据中的复杂交互关系 [4] - 基础模型展现出广泛泛化能力、高效迁移学习能力和对特定任务标注数据集依赖降低等显著优势 [4] 全新分类框架与核心能力 - 提出围绕动态驾驶环境中稳健性能需求的四项核心能力分类框架:通用知识、空间理解、多传感器鲁棒性和时序推理 [5] - 与传统"基于方法"的综述不同 该框架优先关注概念设计原则 提供"以能力为导向"的模型开发指导 [6] - 框架更清晰地揭示了基础模型的核心特性 为研究人员识别和解决特定缺陷提供系统性指导 [6] 通用知识能力 - 通用知识使模型能适应广泛驾驶场景 包括罕见或未见情况 并能合理推断可能结果和对未知智能体进行逻辑推理 [5] - 通过特征级蒸馏、伪标签监督和直接集成三种核心机制将基础模型集成到自动驾驶技术栈中 [37] - 视觉基础模型(VFMs)可直接集成到2D图像流水线 也能扩展至3D感知流水线 提供高层语义理解 [40] 空间理解能力 - 空间理解让自动驾驶车辆构建环境的连贯3D表示 捕捉物体身份、几何形状与上下文关系 [63] - 体积模型通过将传感器输入解读为3D场景的投影 构建密集、整体的环境表示 [65] - 3D掩码自动编码器通过"掩码输入-重建输出"策略 迫使模型学习场景级结构、物体边界和空间关系 [73] 多传感器鲁棒性 - 多传感器鲁棒性指系统在环境变化、传感器噪声或硬件性能下降时仍能保持感知精度与稳定性的能力 [80] - 跨模态对比学习构建统一表示空间 整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息 [82] - 多模态掩码自动编码器扩展至处理多模态输入 通过自监督重建任务让模型捕捉互补线索 [97] 时序推理能力 - 时序理解是对场景随时间演变过程进行推理 包括捕捉物体运动、跟踪遮挡物以及预测未来事件 [109] - 时序一致的4D预测模型从传感器观测序列中预测复杂动态环境的演变过程 [113] - 扩散概率模型能够表示复杂的多模态概率分布 成为解决未来场景不确定性问题的理想方案 [115] 技术实现与方法创新 - 知识蒸馏通过训练学生模型模仿教师模型的输出或内部行为 实现三类实现方式:输出级蒸馏、特征级蒸馏和关系级蒸馏 [17] - 神经辐射场(NeRF)采用隐式表示将场景建模为连续函数 通过可微体素渲染方程实现照片级真实感渲染 [24] - 3D高斯溅射(3DGS)采用显式表示将场景建模为一组3D高斯椭球体集合 通过可微前向光栅化器大幅提升渲染速度 [25] 模型对比与特性分析 - 基础模型相较于传统深度学习模型 在自动驾驶感知中的核心优势在于更优的泛化性和适应性 [36] - 视觉语言模型(VLMs)融合视觉基础模型与大语言模型的优势 实现视觉内容与文本语义对齐的联合表征 [35] - 大语言模型(LLMs)基于Transformer架构在海量文本语料上训练 具备强大的抽象、推理与指令遵循能力 [51] 当前挑战与未来方向 - 域间隙问题是核心挑战之一 需弥合基础模型预训练通用知识与自动驾驶感知特定需求之间的间隙 [59] - 幻觉风险带来严重安全风险 需深入探究故障根源并开发主动缓解策略 [60] - 延迟与效率问题与自动驾驶实时处理需求存在直接冲突 需通过模型优化技术构建更小、更高效的模型变体 [61]
SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
机器之心· 2025-09-07 16:21
技术突破与创新 - 推出首个在3D高斯点(3DGS)上原生运行的端到端大规模3D室内场景理解方法SceneSplat,突破现有方法依赖2D或文本模态的局限 [2] - 提出自监督学习方案,从未标记场景中解锁3D特征学习,支持视觉-语言预训练和自监督预训练两种模式 [2][12][14] - 开发高效语义标注系统,结合SAMv2分割、SigLIP2特征提取和Occam's LGS多视角特征融合技术,实现稳定的3D高斯-语言特征对生成 [8][10] 数据集构建 - 构建并发布首个针对室内场景的大规模3DGS数据集SceneSplat-7K,包含7916个场景,源自7个权威数据集(ScanNet、Matterport3D等) [2][6] - 数据集总计包含112.7亿个高斯点,单场景平均约142万个点,对应472万张RGB训练帧 [6][7] - 重建质量达到PSNR 29.64 dB、平均Depth-L1 0.035米,存储需求2.76TB,计算资源消耗等效NVIDIA L4 GPU运行3592小时(约150天) [6][7] 性能表现 - 在ScanNet200、Matterport3D和ScanNet++的零样本语义分割任务中达到SOTA效果,最高f-mIoU达28.4%(ScanNet++) [21][22] - 无监督预训练后在ScanNet20、ScanNet200和ScanNet++的语义分割任务中均达到SOTA,mIoU最高77.2%(ScanNet20) [23] - 支持开放词汇识别和物体属性查询,能有效处理训练数据中未出现的类别(如Robot Arm) [27][29] 应用与扩展 - 数据集已扩展至SceneSplat-49K,并在多数据集上完成系统化3DGS与语义结合的基准测试 [31] - 技术成果由国际顶尖研究团队(含INSAIT、苏黎世联邦理工等机构成员)联合开发,获CVPR、ICCV等顶级会议论文收录 [32][33][34] - 相关研究获得Google、华为等企业产学协同支持,并参与欧盟"AI工厂"计划(总额9000万欧元) [34][36]
语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
机器之心· 2025-09-03 12:33
语音分离技术综述 - 清华大学、青海大学、南京大学、南方科技大学、中国科学院大学、字节跳动的研究者全面调研了语音分离领域 对200余篇代表性论文进行了系统归纳和分析 涵盖深度学习方法、模型架构、研究主题、评测指标、数据集、工具平台、模型效果比较和未来挑战等多个维度[2] 问题定义 - 语音分离任务根据混合说话人数量是否已知分为已知人数分离和未知人数分离两类 已知人数分离可通过深度聚类或排列不变训练等策略解决输出顺序不确定的排列歧义问题 未知人数分离需要模型动态决定输出通道数并判断终止时机 面临说话人排列组合随人数增加呈指数扩展的挑战[6] 学习范式 - 有监督学习利用配对的混合音频及纯净源音频进行训练 采用深度聚类方法将时频单元映射到高维嵌入空间再聚类生成声源掩膜 或使用排列不变训练方法对输出标签进行动态匹配只保留误差最小的排列来更新模型[10] - 无监督学习不依赖配对的干净源参考 探索利用未标注的混合语音直接训练分离模型 MixIT方法通过将两段混合语音再混合作为输入 让模型输出更多分量并设计仅依赖输入混合物的损失函数[12] 模型架构 - 典型架构包含编码器、分离网络和解码器 基于RNN的模型利用循环神经网络捕获语音信号中的长时依赖关系 Dual-Path RNN通过划分长序列为短块并在块内和块间双路径循环处理高效建模长序列[17] - 基于CNN的模型利用卷积神经网络强大的局部特征提取能力 Conv-TasNet等时域卷积模型通过空洞卷积技术兼顾短时细节和长程依赖 基于自注意力的模型引入全局序列建模能力 SepFormer等Transformer架构进一步刷新了分离性能[17] - 音频重构策略包括掩膜估计和直接映射两类 掩膜方法输出每个源的时间频率掩膜乘以混合后重建源信号 直接映射方法直接输出各源的波形或特征表示避免误差传播[18] 评测指标 - 主观评价指标包括MOS(评分范围1-5) 直观贴近人耳体验但难以大规模获取[20] - 客观评价指标包括SDR(单位dB)、SIR(单位dB)、SAR(单位dB)、SISDR(单位dB)、PESQ(窄带和宽带范围-0.5~4.5)、STOI(范围0~1)、ESTOI(范围0~1)、DNSMOS(范围1~5)和SIGMOS(范围1~5)等 各自侧重不同方面需要结合使用[20] 数据集 - 单通道数据集包括WSJ0-2mix(2016年)、WSJ0-3mix(2016年)、WHAM!(2019年)、WHAMR!(2020年)、LibriMix(2020年)、DNS Challenge(2021年)、REAL-M(2022年)、Lombard-GRID(2024年)、LibriheavyMix(2024年)、LRS2-2Mix(2024年)和SonicSet(2024年)等[23] - 多通道数据集包括SMS-WSJ(2019年)、LibriCSS(2020年)、Kinect-WSJ(2021年)和AISHELL-4(2021年)等[23] 模型性能 - 在WSJ0-2mix数据集上 早期模型如DPCL和uPIT-BLSTM达到约10 dB的SDR Conv-TasNet等端到端模型将性能推升到12 dB以上 最近两三年SepFormer、DPRNN系列和双路Transformer等先进架构将SDR提升到20 dB左右[24] - 在含噪声混响的WHAM!和WHAMR!数据集上 模型性能相对无噪条件下降明显 说明噪声鲁棒性仍是挑战[25] 工具平台 - 开源工具包括nussl(2018年 Python语言 PyTorch后端 MIT许可证)、ONSSEN(2019年 Python语言 PyTorch后端 GPL-3.0许可证)、ESPNet-SE(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、Asteroid(2020年 Python语言 PyTorch后端 MIT许可证)、SpeechBrain(2021年 Python语言 PyTorch后端 Apache-2.0许可证)、ClearerVoice-Studio(2024年 Python语言 PyTorch后端 Apache-2.0许可证)和WeSep(2024年 Python/C++语言 PyTorch后端 Apache-2.0许可证)等[29] 未来挑战 - 长时段音频处理需要在保证分离连续性的同时控制模型复杂度和内存开销 移动端和嵌入式应用要求模型具备较小参数量和计算量[32] - 因果语音分离要求算法只能利用当前及过去帧的信息不能窥视未来 对模型延时和缓存机制提出严格要求[32] - 生成式方法包括生成对抗网络和扩散模型开始用于语音分离 在弱监督或无监督场景下展示出潜力[32] - 预训练技术如大规模自监督预训练wav2vec 2.0等可提供强大通用特征 在低资源分离任务上显著提升性能[32] - 目标说话人提取利用已知的目标说话人特征从混合中提取该说话人语音 需要高效利用说话人嵌入并与分离网络融合[33] - 语音分离正日益与语音识别、说话人识别/分离、语音增强等任务结合 形成端到端的联合优化框架[33]
小扎又开源了:7B实现自监督学习SOTA
量子位· 2025-08-16 10:00
核心观点 - Meta发布全新开源视觉模型DINOv3,首次证明自监督学习模型在广泛任务中超越弱监督学习模型 [1] - DINOv3采用无标注方法,数据规模扩展至17亿张图像,模型规模扩展至70亿参数 [1] - 该模型在缺乏标注或跨领域场景中表现绝对领先,并在计算机视觉三大核心任务(分类、检测、分割)上实现SOTA [3] 技术突破 - 采用创新的自监督学习方法,专注于生成高质量高分辨率视觉特征 [6] - 首次实现单一冻结视觉骨干网络在多项密集预测任务中超越专门化解决方案的性能 [6] - 引入"Gram anchoring"新方法解决训练中密集特征图退化问题,显著提升局部特征质量 [8][15] 训练方法 - 构建包含17亿张图片的预训练数据集,主要来自Instagram公开图片和少量ImageNet图片 [10][11] - 采用判别式自监督方法,通过Sinkhorn-Knopp算法和Koleo正则稳定特征分布 [11] - 模型参数从11亿扩展至70亿,增强骨干网络表示能力 [11] - 引入RoPE-box jittering使模型对分辨率、尺度和长宽比变化更具鲁棒性 [13] 性能表现 - 在ADE-20k分割任务中达到55.9,相比DINO的31.8和DINOV2的49.5有显著提升 [4] - 在NYU深度估计任务中达到0.309,优于DINO的0.537和DINOV2的0.372 [4] - 在DAVIS视频跟踪任务中达到83.3,相比DINO的68.7和DINOV2的76.6有明显进步 [4] - 在ImageNet ReaL分类任务中达到90.4,接近SIGLIP 2的90.5 [4] 应用场景 - 消除研究人员为特定任务对模型进行微调的必要 [23] - 通过蒸馏构建开发环境友好的模型矩阵,包括ViT和ConvNeXt架构 [23] - 在卫星影像分析中,将肯尼亚某地区树冠高度测量的平均误差从4.1米降低至1.2米 [28] - 在多个遥感任务中取得SOTA,包括语义地理空间任务和高分辨率语义任务 [29] 发展历程 - 从DINO初步研究使用100万张图像训练8000万参数模型 [38] - 到DINOv2基于1.42亿张图像训练1B参数模型 [38] - 再到DINOv3的70亿参数和17亿张图片 [38] - 标志着视觉模型大规模自监督训练的持续进步 [30]
吞下17亿图片,Meta最强巨兽DINOv3开源,重新定义CV天花板
36氪· 2025-08-15 15:29
技术突破 - Meta推出DINOv3视觉模型,通过自监督学习(SSL)训练,无需人工标注,使用17亿张图片训练出70亿参数的视觉主干网络 [1] - DINOv3在多个密集预测任务中首次超越专用解决方案,刷新或逼近多项基准测试最佳成绩 [1] - 模型参数规模达70亿,训练数据量比前代提升12倍,在15项视觉任务和60多个基准测试中表现优异 [19] 性能表现 - 在ADE-20k分割任务中达到55.9分,相比DINOv2的49.5分有显著提升 [2] - 深度估计任务NYU I误差降至0.309,优于DINOv2的0.372 [2] - 视频跟踪DAVIS得分83.3,实例检索Met得分55.4,均大幅领先前代 [2] - ImageNet ReaL分类准确率达90.4%,与当前最优弱监督模型相当 [2][23] 应用场景 - NASA已将DINOv3应用于火星探测机器人,实现低资源多任务视觉处理 [3][24] - 世界资源研究所使用DINOv3监测森林砍伐,树冠高度测量误差从4.1米降至1.2米 [16][17] - 适用于医疗影像、卫星遥感、自动驾驶等领域,特别适合标注稀缺场景 [10][15] 技术特点 - 采用完全开源策略,包含预训练模型、适配器、训练代码等全流程资源 [6][9] - 支持高分辨率特征提取,能生成包含可测量属性的像素级密集特征 [21] - 无需微调即可直接应用于下游任务,多个任务可共享计算开销 [22][24] - 提供从轻量级到高性能的模型家族,包括ViT和ConvNeXt等多种架构 [26] 行业影响 - 首次证明自监督学习模型能超越弱监督模型,减少对人工标注的依赖 [11][12] - 推动计算机视觉领域范式转变,加速医疗、环保、制造等行业的视觉应用 [10] - 开源策略降低技术门槛,促进社区在视觉基础模型上的创新 [6][26]
Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
机器之心· 2025-08-15 11:29
计算机视觉模型发展 - 计算机视觉下游任务的基础是二维图像理解(特征提取)[1] - CV基本任务的三大模型代表:全监督SAM、弱监督CLIP、自监督DINO [2] - 自监督学习(SSL)成为主流范式,推动大语言模型崛起,具备无标注数据优势 [2] DINO系列模型演进 - 2021年Meta发布DINO模型,基于ViT架构实现无标注语义分割/检测 [2] - 2023年DINOv2改进训练数据规模与稳定性,支持线性分类/深度估计等任务 [2] - DINOv3实现单一冻结骨干网络在目标检测/语义分割等密集预测任务超越专业方案 [6] DINOv3核心技术突破 - 训练数据扩展至17亿张图像,参数规模达70亿 [9] - 创新Gram Anchoring策略解决特征坍缩问题,引入旋转位置编码RoPE [18] - 在15个视觉任务/60+基准测试中表现优异,密集预测任务理解场景布局能力突出 [31] 性能对比与优势 - 图像分类任务:ImageNet ReaL准确率90.4%,与SigLIP 2(90.5%)相当 [17] - 密集预测任务:ADE-20k分割得分55.9,显著高于DINOv2(49.5)和SigLIP 2(42.7) [17] - 实例检索任务:Met指标55.4,远超DINOv2(44.6)和SigLIP 2(13.9) [17] 高分辨率与密集特征 - 支持4096×4096分辨率图像处理,生成语义一致的锐利特征图 [26][28] - 通过PCA可视化显示特征空间对主体区域的精准捕捉能力 [27] - 卫星图像树冠高度测量误差从DINOv2的4.1米降至1.2米 [40] 应用部署与生态 - 提供ViT-B/ViT-L等蒸馏模型变体,全面超越CLIP同类模型 [36] - 开源ConvNeXt架构模型(T/S/B/L版本)满足不同计算需求 [37] - 已应用于医学影像、卫星遥感、火星机器人等现实场景 [39] 行业影响 - 世界资源研究所使用DINOv3自动化气候金融支付流程,提升验证效率 [39] - NASA喷气推进实验室采用DINOv2构建火星探索机器人多任务系统 [39] - 标志着自监督学习首次在广泛任务上超越弱监督模型 [15]