Patch-Text对齐 - 财报，业绩电话会，研报，新闻

Patch-Text对齐

搜索文档

CVPR 2026 | 谷歌DeepMind重磅开源多模态TIPSv2：实现Patch-Text对齐的最优表现

机器之心· 2026-04-27 16:11

文章核心观点 - 谷歌DeepMind团队发布了新一代视觉-语言基础模型TIPSv2，通过三大核心技术革新，在细粒度图像-文本对齐方面取得了突破性进展，并在多项密集视觉理解任务上实现了统治级的性能表现[2][5][36] 发现反直觉现象：为何“学生”超越了“老师”？ - 研究团队发现，通过块级别（Patch-level）知识蒸馏得到的小参数学生模型，在零样本分割等密集型图文对齐任务上的表现，大幅反超了规模巨大的教师模型[10] - 例如，TIPS ViT-L模型在PC59、PC60、VOC21、ADE150数据集上的零样本分割mIoU分别为33.5、30.4、30.5、20.8，而更大的TIPS ViT-g模型表现仅为11.4、10.8、19.7、2.6[9] - 核心原因在于蒸馏过程中，学生模型接收了来自教师模型所有图像块（无论是否被遮挡）的特征指导，这种对“可见图像块”的显式学习，解锁了模型强大的密集图文对齐能力[10] TIPSv2的三大核心技术创新 - **创新一：iBOT++ —— 全局视角的自监督对齐引擎**：将自监督的图像块级别损失扩展至所有标记（包括未被遮挡的可见标记），强制模型在所有局部区域保持细粒度表征一致性[12] - 仅此一项改动，使模型在ADE150数据集上的零样本分割mIoU指标实现了+14.1的巨大飞跃，从3.5飙升至17.6[14][15] - **创新二：Head-only EMA —— 突破显存瓶颈的高效策略**：仅对顶层的投影头执行指数移动平均更新，同时冻结视觉主干网络，在保持性能的同时大幅降低了十亿参数级模型训练时的显存需求[16] - **创新三：多粒度文本描述**：构建了包含传统替代文本、PaliGemma生成的密集局部字幕以及Gemini Flash生成的深度描述在内的多粒度训练数据，通过随机交替训练提升模型在复杂密集对齐任务中的鲁棒性[17] 性能评估：9大任务与20个数据集的全面超越 - 模型在涵盖密集图像-文本评估、全局图像-文本评估及纯图像评估三大维度的9个核心任务、20个权威数据集上进行了评估，覆盖了从86M到1.1B参数的四种模型尺寸[21] - **密集图像-文本评估（零样本分割）**：TIPSv2 L/14模型在PC59、PC60、VOC21、ADE150数据集上的mIoU分别达到37.1、33.9、44.4、24.7，全面超越SigLIP2、SILC、DINOv2等前沿模型[22][23] - **全局图像-文本与纯图像评估**：TIPSv2在多项分类、图文检索任务中位列前二，并在多个纯视觉骨干任务中稳居榜首或次席[23] - **与顶尖模型的对比**：TIPSv2-g（1.1B参数）在3/5的共享评估体系中，击败了参数量多出56%、训练数据量高达47倍的业界顶尖模型PE-core G/14[24] - **与DINOv3的对比**：在双方共有的ViT-L尺寸下公平对比，TIPSv2在6项共享评估任务中赢下4项，包括零样本分割核心任务，证明了图文双模态联合预训练的优势[26][27] 深度特征可视化与开源生态 - 特征可视化分析表明，TIPSv2的特征图具有极致的表征平滑性和极强的语义聚焦能力，能更精准地勾勒物体边界并理解其空间语义构成[29][32] - 公司已全面开源相关代码、模型权重（遵循Apache 2.0协议），涵盖从86M到1.1B的不同尺寸，并提供PyTorch与Jax两种框架版本，以及便于工业界即插即用的DPT预测头[34][38]

Patch-Text对齐

多模态大模型

视觉 - 语言基础模型

Artificial Intelligence

Artificial Intelligence

TIPSv2