Workflow
DINOv2
icon
搜索文档
NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
机器之心· 2025-11-19 12:07
本文共同第一作者为陈寅杰、颜子鹏,相关研究工作于香港大学科研实习期间完成;通讯作者 Andrew F. Luo 为香港大学助理教授。该工作已经被 NeurIPS 2025 会议接受为 Spotlight。 在视觉处理任务中,Vision Transformers(ViTs)已发展成为主流架构。然而,近期研究表明,ViT 模型的密集特征中会出现部分与局部语义不一致的伪影 (artifact),进而削弱模型在精细定位类任务中的性能表现。因此,如何在不耗费大量计算资源的前提下,保留 ViT 模型预训练核心信息并消除密集特征中的伪 影? 香港大学团队提出一种 无需数据标记的 ViT 密集表征增强方法 PH-Reg (Post Hoc Registers),为该挑战提供了全新且高效的解决方法。该方法融合测试时增强 (test-time augmentation)的去噪策略,去除教师模型密集特征中的伪影;并通过自蒸馏方法,在无需额外数据标记的条件下,得到能够输出无伪影密集特征的学 生模型。 PH-Reg 具备良好的架构适配性,可灵活应用于 CLIP、DINOv2 等不同模型架构,能够高效去除密集特征的伪影,以此显著提升模 ...
NeurIPS 2025|VFMTok: Visual Foundation Models驱动的Tokenizer时代来临
机器之心· 2025-10-28 17:37
技术背景与核心观点 - 自回归模型在图像生成领域的应用依赖于视觉Tokenizer,其作用是将高维像素空间映射到低维离散潜在空间,是决定生成模型上限的基石[3] - 传统视觉Tokenizer(如VQGAN)存在缺乏高层语义信息、潜在空间冗余以及表征结构混乱等困境[4][7] - 研究提出并验证了一个新假设:冻结的预训练视觉基础模型(如CLIP、DINOv2、SigLIP2)的潜在特征可以直接作为图像重建与生成的鲁棒结构化表征[4] - 基于视觉基础模型构建的Tokenizer(VFMTok)在图像重建和自回归图像生成任务上均表现出优于传统模型的性能[5] VFMTok的核心技术创新 - 采用多层图像特征提取技术,从冻结的预训练基础模型中按等间隔方式提取多层级语义特征,以同时捕获图像的低层细节和高层语义信息[14][17] - 设计了区域自适应量化机制,通过可学习的锚点查询结合可变形注意力机制进行自适应特征采样,聚焦于图像中模式一致的区域,有效提升token利用效率,仅用256个token表征一张图像[14][18] - 引入了语义特征重建目标函数,在重建图像内容的同时,重建冻结基础模型最后一层的语义特征,以提升Tokenizer的语义保真度[14][19] - 整体架构采用共享的轻量级Vision Transformer,减少了参数量并保证了语义保真度,其双重目标函数结合了传统Tokenizer损失和余弦相似度损失[19][20] 性能优势与实验成果 - 在图像重建质量上,VFMTok仅用256个token即可实现rFID 0.89和rIS 215.4的优异表现,超越了使用576个token的VQGAN基线(rFID 0.95, rIS 197.3)[12][23][29] - 在线性探针准确率上,仅使用冻结VFM作为编码器即可从VQGAN的23.1%提升至56.4%,引入完整VFMTok技术后达到69.4%[12][28][29] - 在自回归图像生成任务上,VFMTok能够显著提升训练收敛速度,训练收敛速度提升了3倍[24] - VFMTok-1.4B模型在参数量更少、训练迭代次数更少的情况下,自回归生成性能超越了同类LlamaGen-3B模型[26] - 接入RAR自回归图像生成框架后,VFMTok实现了SOTA的图像生成性能,gFID达到1.36[27] 效率与实用性突破 - VFMTok在有无分类器自由引导的情况下性能几乎一致(gFID: 2.07 vs 2.04),而LlamaGen则会从2.19急剧恶化至9.38,证明了其潜在空间具有极强的语义一致性[27][33] - 由于token数量减半(256 vs 576),自回归模型的生成过程长度减半,推理速度因此获得了约4倍的提升[33] - VFMTok实现了100%的码本利用率,超越了之前大部分传统的离散Tokenizers[23][29] - 该方法无需CFG即可实现高保真度的class-to-image图像生成,可以进一步减少图像生成时间[33]
Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
机器之心· 2025-08-15 11:29
计算机视觉模型发展 - 计算机视觉下游任务的基础是二维图像理解(特征提取)[1] - CV基本任务的三大模型代表:全监督SAM、弱监督CLIP、自监督DINO [2] - 自监督学习(SSL)成为主流范式,推动大语言模型崛起,具备无标注数据优势 [2] DINO系列模型演进 - 2021年Meta发布DINO模型,基于ViT架构实现无标注语义分割/检测 [2] - 2023年DINOv2改进训练数据规模与稳定性,支持线性分类/深度估计等任务 [2] - DINOv3实现单一冻结骨干网络在目标检测/语义分割等密集预测任务超越专业方案 [6] DINOv3核心技术突破 - 训练数据扩展至17亿张图像,参数规模达70亿 [9] - 创新Gram Anchoring策略解决特征坍缩问题,引入旋转位置编码RoPE [18] - 在15个视觉任务/60+基准测试中表现优异,密集预测任务理解场景布局能力突出 [31] 性能对比与优势 - 图像分类任务:ImageNet ReaL准确率90.4%,与SigLIP 2(90.5%)相当 [17] - 密集预测任务:ADE-20k分割得分55.9,显著高于DINOv2(49.5)和SigLIP 2(42.7) [17] - 实例检索任务:Met指标55.4,远超DINOv2(44.6)和SigLIP 2(13.9) [17] 高分辨率与密集特征 - 支持4096×4096分辨率图像处理,生成语义一致的锐利特征图 [26][28] - 通过PCA可视化显示特征空间对主体区域的精准捕捉能力 [27] - 卫星图像树冠高度测量误差从DINOv2的4.1米降至1.2米 [40] 应用部署与生态 - 提供ViT-B/ViT-L等蒸馏模型变体,全面超越CLIP同类模型 [36] - 开源ConvNeXt架构模型(T/S/B/L版本)满足不同计算需求 [37] - 已应用于医学影像、卫星遥感、火星机器人等现实场景 [39] 行业影响 - 世界资源研究所使用DINOv3自动化气候金融支付流程,提升验证效率 [39] - NASA喷气推进实验室采用DINOv2构建火星探索机器人多任务系统 [39] - 标志着自监督学习首次在广泛任务上超越弱监督模型 [15]
聊聊DreamVLA:让机器人先看后想再动
具身智能之心· 2025-08-11 08:14
DreamVLA模型概述 - 提出一种新型视觉-语言-动作(VLA)模型DreamVLA 通过预测环境动态、空间和语义信息提升机器人动作决策精度 [1] - 采用"感知-预测-动作"循环框架 将动作规划视为逆动力学问题 通过预测未来环境状态推导动作 [6][7] - 在CALVIN ABC-D基准测试中平均任务完成长度达4.44 模拟环境性能比前代方法高3.5% 现实世界任务成功率76.7% [25] 技术架构 输入处理 - 多模态输入编码:语言指令(CLIP ViT-B/32文本编码器)、视觉图像(MAE预训练ViT-B模型处理双路摄像头)、机器人状态(可训练编码器) [10][14] - 采用perceiver resampler压缩视觉特征 将196个局部特征向量和全局[CLS] token压缩至可管理规模 [14] 世界知识预测 - 动态区域预测:使用CoTracker光流跟踪算法 通过速度阈值筛选生成二值化动态区域掩码 聚焦移动物体 [12][15] - 深度预测:有深度传感器时直接监督训练 无传感器时采用DepthAnything自监督 输出尺度归一化深度图 [13][16] - 语义预测:并行使用DINOv2(语义向量)和SAM(分割掩码) 通过轻量级ViT解码器输出语义特征 [18][22] 动作生成 - 采用扩散Transformer(DiT-B)作为动作解码器 从高斯噪声逐步生成7维动作向量(6维空间位移+1维抓手状态) [23] - 引入块状结构化注意力机制 结合因果/非因果注意力确保多步动作连贯性 [19] - 使用查询token引导未来世界知识预测 与输入序列拼接后生成世界嵌入 [20] 性能验证 - 消融实验显示动态区域预测贡献最大 深度/语义预测结合动态区域可进一步提升性能 [31] - 结构化注意力机制比普通因果注意力更稳定 分开查询优于共享查询 [31] - 使用DROID数据集(7.6万条轨迹)预训练 仅需100个任务特定演示微调即可展现强泛化能力 [25] 应用前景 - 框架兼容现有VLA模型 特别适合助手机器人和导航场景 [27] - 动态区域掩码能有效抑制背景干扰 深度地图辅助避障 语义特征提升物体交互精度 [17][22]
港大马毅团队等开源新作:用编码率正则化重构视觉自监督学习范式,“少即是多”
量子位· 2025-03-08 11:35
视觉预训练模型创新 - SimDINO和SimDINOv2是马毅团队、微软研究院、UC伯克利等联合开发的最新视觉预训练模型,通过编码率正则化简化DINO系列训练流程 [1] - 模型核心创新在于去除DINO系列复杂的后处理步骤(如输出层高维投影、教师网络中心化-锐化操作等),同时性能反而提升 [5][6][12] - 简化设计理念体现"简单即是美",马毅团队强调这是对视觉表示学习本质规律的重新发现 [7][17] 技术突破与优势 - 引入编码率正则化替代原有复杂设计,显式度量模型表征质量,防止特征崩溃 [14][16][17] - 训练流程显著简化:移除权重归一化线性层、温度调度等超参数,改用欧几里得距离/余弦相似度直接比较特征 [18][19] - 实验显示模型对超参数和数据变化更稳健,训练稳定性提升且计算效率优于DINO系列 [21][23][32] 性能验证结果 - ImageNet-1K评估:SimDINOv2(ViT-B/16)线性评估达36.9% mIoU,优于DINOv2同架构的32.5% [30] - COCO目标检测:SimDINOv2在AP50/AP75/AP指标上全面超越DINOv2 [27][28] - 视频分割任务:SimDINOv2(ViT-L/16)在DAVIS-2017的(J&F)m指标达62.6%,展现更强语义表达能力 [30][31] 行业应用与影响 - DINOv2已被Meta首席AI科学家杨立昆团队用于世界模型构建,并是多模态大模型视觉编码器标配 [3][10] - 简化框架降低工程实现门槛,有利于研究人员改进模型架构或适配新领域 [11][18][39] - 开源生态建设完善,项目提供论文、GitHub代码和主页,潜在改进方向包括探索无自蒸馏优化目标 [43][45]