SigLIP - 财报，业绩电话会，研报，新闻

SigLIP

搜索文档

牛津VGG、港大、上交发布ELIP：超越CLIP等，多模态图片检索的增强视觉语言大模型预训练

机器之心· 2025-10-29 19:02

核心观点 - 提出一种名为ELIP的方法，旨在利用学术界有限的计算资源来增强视觉语言大模型的预训练，以提升其在文字-图片检索任务中的性能 [2] - 该方法的核心思想是通过一个轻量级的MLP映射网络，将语言信息注入到图像编码器中，实现两阶段（ranking + re-ranking）的检索流程 [5] - ELIP方法被证明可以显著提升包括CLIP、SigLIP、SigLIP-2和BLIP-2在内的多种主流视觉语言模型的检索效果，并在新的OOD测试集上展现出强大的泛化能力 [20][21][22] 方法概览 - ELIP方法首先使用传统模型（如CLIP/SigLIP）进行初步排序，然后对排名靠前的候选结果进行重新排序 [5] - 重新排序的关键是一个简单的三层MLP映射网络，该网络将文本特征映射为视觉域中的token，并将其插入图像编码器，使图像编码过程能感知语言信息 [5][9] - 该方法具有通用性，可应用于CLIP、SigLIP、SigLIP-2和BLIP-2等模型，分别称为ELIP-C、ELIP-S、ELIP-S-2和ELIP-B [5] 模型架构创新 - 模型架构的主要创新在于仅需训练一个轻量级的MLP映射网络，而庞大的图像和文本编码器的权重保持固定，这大大降低了计算资源需求 [8][9] - 对于CLIP和SigLIP模型，训练时分别沿用InfoNCE损失函数和Sigmoid损失函数来对齐文本特征和重新计算后的图像特征 [9] - 对于BLIP-2模型（ELIP-B），由文本引导的图像特征被输入Q-Former与文本进行交叉注意力计算，最终由ITM Head预测图文匹配度，训练沿用BLIP-2的BCE损失函数 [11] 训练数据创新 - 针对学术界GPU资源有限导致训练批次大小（batch size）较小的问题，作者提出了一种硬样本训练批次构建方法 [13] - 该方法预先计算训练图片和对应文字标题的CLIP特征，然后将特征相似的图文对聚集在一起，形成一个包含挑战性样本的训练批次，以提升模型的分辨能力 [13][15] 新的评测数据集 - 除了COCO和Flickr等标准测试集，作者引入了两个新的分布外（OOD）测试集：Occluded COCO和ImageNet-R，以评估模型的泛化能力 [17][18] - Occluded COCO数据集中的正样本包含被遮挡的物体，ImageNet-R数据集中的正样本包含来自不常见领域的物体 [18] 实验结果 - 在COCO数据集上，ELIP-C将CLIP的平均Recall从60.58提升至65.71；ELIP-S将SigLIP的平均Recall从71.74提升至77.45；ELIP-S-2将SigLIP-2的平均Recall从73.72提升至78.82 [21] - 在Flickr数据集上，ELIP-C将CLIP的平均Recall从82.97提升至85.87；ELIP-S将SigLIP的平均Recall从92.37提升至94.98；ELIP-S-2将SigLIP-2的平均Recall从92.92提升至94.88 [21] - ELIP-B将BLIP-2在COCO上的平均Recall从82.87提升至83.02，在Flickr上从95.62提升至95.88，表现超过了最新的Q-Pert方法 [21] - 在OOD测试集上，所有ELIP变体均取得了零样本泛化提升，例如ELIP-S在Occluded COCO上的零样本性能为64.58，经过微调后可达71.99 [22] - 注意力图分析表明，当文本查询与图片相关时，ELIP能够增强模型对文字描述相关区域的注意力 [23]

视觉语言大模型

多模态图片检索

Artificial Intelligence

Artificial Intelligence

量子位· 2025-10-14 16:16

文章核心观点 - 谢赛宁团队提出表征自编码器RAE将取代变分自动编码器VAE，标志着VAE时代的结束[1][4] - RAE采用预训练表征编码器与轻量级解码器配对，在扩散Transformer模型中实现更高质量重建和更快收敛速度[3][9][19] - 该方法在ImageNet图像生成任务中取得FID 1.51（无引导）和1.13（有引导）的优异表现[6] RAE技术原理与优势 - RAE核心设计是用预训练表征编码器（DINO、SigLIP、MAE等）与训练后的轻量级解码器配对[3] - 无需额外表示对齐损失或辅助损失函数，架构简洁但重建质量超越SD-VAE[9][10] - 提供语义丰富的潜空间，支持可扩展的基于变换器的架构[4] 传统VAE的局限性 - SD-VAE需要约450 GFLOPs运算量，而简易ViT-B编码器仅需22 GFLOPs，架构过于复杂[7] - VAE潜空间过度压缩（只有4个通道），信息容量严重受限[7] - VAE表征能力薄弱，线性探测精度约8%，特征质量低下拖慢收敛速度并损害生成质量[7][11] RAE性能表现 - 在重建质量指标rFID上：DINOv2-B为0.49，SigLIP2-B为0.53，MAE-B为0.16，均优于SD-VAE的0.62[11] - 在表征质量指标Top-1准确率上：DINOv2-B达84.5%，SigLIP2-B达79.1%，MAE-B达68.0%，远高于SD-VAE的8.0%[11] - 收敛速度比基于SD-VAE的REPA快达16倍[19] DiT架构适配与优化 - 采用宽DiT设计，要求变换器宽度至少等于潜表征维度[14] - 调整噪声调度使扩散模型适应增加的输入通道维度[17] - 在解码器训练中注入微量噪声，提升对潜空间扩散误差的鲁棒性[17] - 引入极宽但极浅的扩散头部设计，提升DiT在RAE框架内的可扩展性[21][22]

Diffusion Transformer（扩散Transformer）

Diffusion Transformer（扩散Transformer）

SD - VAE