Workflow
Patch-Text对齐
icon
搜索文档
CVPR 2026 | 谷歌DeepMind重磅开源多模态TIPSv2:实现Patch-Text对齐的最优表现
机器之心· 2026-04-27 16:11
文章核心观点 - 谷歌DeepMind团队发布了新一代视觉-语言基础模型TIPSv2,通过三大核心技术革新,在细粒度图像-文本对齐方面取得了突破性进展,并在多项密集视觉理解任务上实现了统治级的性能表现[2][5][36] 发现反直觉现象:为何“学生”超越了“老师”? - 研究团队发现,通过块级别(Patch-level)知识蒸馏得到的小参数学生模型,在零样本分割等密集型图文对齐任务上的表现,大幅反超了规模巨大的教师模型[10] - 例如,TIPS ViT-L模型在PC59、PC60、VOC21、ADE150数据集上的零样本分割mIoU分别为33.5、30.4、30.5、20.8,而更大的TIPS ViT-g模型表现仅为11.4、10.8、19.7、2.6[9] - 核心原因在于蒸馏过程中,学生模型接收了来自教师模型所有图像块(无论是否被遮挡)的特征指导,这种对“可见图像块”的显式学习,解锁了模型强大的密集图文对齐能力[10] TIPSv2的三大核心技术创新 - **创新一:iBOT++ —— 全局视角的自监督对齐引擎**:将自监督的图像块级别损失扩展至所有标记(包括未被遮挡的可见标记),强制模型在所有局部区域保持细粒度表征一致性[12] - 仅此一项改动,使模型在ADE150数据集上的零样本分割mIoU指标实现了+14.1的巨大飞跃,从3.5飙升至17.6[14][15] - **创新二:Head-only EMA —— 突破显存瓶颈的高效策略**:仅对顶层的投影头执行指数移动平均更新,同时冻结视觉主干网络,在保持性能的同时大幅降低了十亿参数级模型训练时的显存需求[16] - **创新三:多粒度文本描述**:构建了包含传统替代文本、PaliGemma生成的密集局部字幕以及Gemini Flash生成的深度描述在内的多粒度训练数据,通过随机交替训练提升模型在复杂密集对齐任务中的鲁棒性[17] 性能评估:9大任务与20个数据集的全面超越 - 模型在涵盖密集图像-文本评估、全局图像-文本评估及纯图像评估三大维度的9个核心任务、20个权威数据集上进行了评估,覆盖了从86M到1.1B参数的四种模型尺寸[21] - **密集图像-文本评估(零样本分割)**:TIPSv2 L/14模型在PC59、PC60、VOC21、ADE150数据集上的mIoU分别达到37.1、33.9、44.4、24.7,全面超越SigLIP2、SILC、DINOv2等前沿模型[22][23] - **全局图像-文本与纯图像评估**:TIPSv2在多项分类、图文检索任务中位列前二,并在多个纯视觉骨干任务中稳居榜首或次席[23] - **与顶尖模型的对比**:TIPSv2-g(1.1B参数)在3/5的共享评估体系中,击败了参数量多出56%、训练数据量高达47倍的业界顶尖模型PE-core G/14[24] - **与DINOv3的对比**:在双方共有的ViT-L尺寸下公平对比,TIPSv2在6项共享评估任务中赢下4项,包括零样本分割核心任务,证明了图文双模态联合预训练的优势[26][27] 深度特征可视化与开源生态 - 特征可视化分析表明,TIPSv2的特征图具有极致的表征平滑性和极强的语义聚焦能力,能更精准地勾勒物体边界并理解其空间语义构成[29][32] - 公司已全面开源相关代码、模型权重(遵循Apache 2.0协议),涵盖从86M到1.1B的不同尺寸,并提供PyTorch与Jax两种框架版本,以及便于工业界即插即用的DPT预测头[34][38]