Workflow
SigLIP
icon
搜索文档
超越CLIP,北大开源细粒度视觉识别大模型,每类识别训练仅需4张图像
36氪· 2026-02-11 16:03
研究背景与核心问题 - 北京大学彭宇新教授团队在细粒度多模态大模型领域取得突破,相关论文已被ICLR 2026接收并已开源[1] - 真实世界具有细粒度特性,对象包含极其丰富的类别层次,例如民用飞机数据库收录全球固定翼飞机种类超过500种[2] - 细粒度视觉识别在现实生产和生活中具有重要价值,但传统识别方法局限于封闭域中的有限类别[4] - 多模态大模型进行细粒度识别面临两大挑战:依赖大量训练数据但细粒度标注数据收集难度高、成本大;在有限数据上训练后难以泛化到训练集外的开放域子类别[4] 解决方案与模型架构 - 团队提出了思维链推理增强的细粒度视觉识别大模型Fine-R1,旨在利用多模态大模型的丰富知识和生成式解码范式,实现开放域任意类别对象的细粒度识别[4] - Fine-R1采用两阶段方案构建[5] - 第一阶段为思维链监督微调:基于Qwen2.5-VL-32B为少量数据构建结构化思维链,将推理过程拆解为视觉分析、候选子类别生成、对比分析及最终预测四个步骤,并对基础模型进行监督微调[7] - 第二阶段为三元组增强策略优化:针对细粒度识别“类内差异大、类间差异小”的问题,通过构建输入图像、正样本(同一子类别)和负样本(不同子类别)的三元组,同时提升模型对类内差异的鲁棒性与类间差异的辨识性[8] 技术细节与优化策略 - 类内增强:同时利用输入图像及其正样本的思考轨迹,以捕获更广泛的类内变化,当模型对两者产生不同预测时,奖励差异会促使模型仅关注判别性特征[8][9] - 类间增强:通过最大化输入/正样本图像与负样本图像之间输出分布的KL散度,促进模型对来自不同子类别的相似图像生成不同响应,从而增强模型对类间差异的辨识性[9][10][11] - 最终目标函数结合了类内与类间增强[12] 实验结果与性能表现 - 在封闭式识别(多选题)任务中,每类仅需4张训练图像,Fine-R1对训练集内(Seen Categories)和训练集外(Unseen Categories)子类别的平均识别准确率均超越主流模型[13] - Fine-R1-7B模型在训练集内子类别的平均识别准确率达到**91.71%**,在训练集外子类别的平均识别准确率达到**85.70%**,整体平均准确率为**88.71%**[13] - Fine-R1-3B模型在训练集内子类别的平均识别准确率为**88.97%**,在训练集外子类别的平均识别准确率为**81.41%**,整体平均准确率为**85.19%**[13] - 在开放式识别(问答题)任务中,同样在每类仅需4张训练图像的情况下,Fine-R1对训练集内外子类别的识别准确率超越了主流的通用多模态大模型与推理大模型[14] - Fine-R1-7B模型在开放式识别任务中的整体平均准确率达到**74.80%**,Fine-R1-3B模型达到**67.32%**[14] 模型优势与能力分析 - Fine-R1在每类仅需4张训练图像的极低数据需求下,对训练集内外子类别的识别准确率均超越了OpenAI的CLIP、谷歌DeepMind的SigLIP等判别式模型[4][13] - 实验分析表明,Fine-R1性能提升的主要原因是提升了“模型运用细粒度子类别知识的能力”,而非优化视觉表征或增加知识储备[16] - 案例展示表明,Fine-R1能通过将思考过程拆分为视觉分析、候选子类别生成、对比分析、最终预测,利用知识逐步推理以准确识别细粒度子类别[18] - 该研究展现了生成式多模态大模型在解决判别式任务上的巨大潜力[4] 行业影响与资源 - 该研究代表了细粒度多模态大模型领域的前沿进展,相关论文、开源代码及模型均已公开[19] - 开源代码发布于GitHub平台,模型地址位于Hugging Face[19] - 该成果由北京大学彭宇新教授团队完成,实验室为北京大学多媒体信息处理实验室[19]
超越CLIP!北大开源细粒度视觉识别大模型,每类识别训练仅需4张图像
量子位· 2026-02-11 09:55
行业背景与问题 - 当前多模态大模型在复杂多模态任务上表现出色,但在细粒度视觉识别任务上明显落后于其所依赖的视觉编码器(如CLIP)[1] - 真实世界具有细粒度特性,对象包含极其丰富的类别层次,例如“飞机”大类可细分为“波音707”等上百种子类,民用飞机数据库收录全球固定翼飞机种类超过500种[3] - 细粒度视觉识别大模型旨在利用多模态大模型的丰富细粒度知识,突破传统方法在封闭域中识别有限类别的局限,实现开放域中任意类别的细粒度识别[5] - 多模态大模型的细粒度识别能力依赖大量训练数据,但细粒度标注数据收集难度高、成本大,无法满足大模型训练所需的数据规模,且在有限数据上训练后难以泛化到训练集外的子类别[5] 技术方案与创新 - 北京大学彭宇新教授团队提出了思维链推理增强的细粒度视觉识别大模型Fine-R1,通过思维链监督微调与三元组增强策略优化,提升模型运用已有知识推理未见子类别的能力[5] - Fine-R1构建包含两个主要步骤:1) 思维链监督微调,模拟人类思考过程,为模型快速构建推理能力;2) 三元组增强策略优化,通过引入正负样本提升模型对类内差异的鲁棒性和类间差异的辨识性[7] - 思维链监督微调基于Qwen2.5-VL-32B构建结构化思维链,将推理过程拆解为视觉分析、候选子类别生成、对比分析及最终预测四个步骤,并利用该数据对基础模型进行监督微调[8] - 三元组增强策略优化针对“类内差异大、类间差异小”的问题,为每张输入图像匹配同一子类别的正样本和外观相似但不同子类别的负样本,构成三元组进行类内与类间增强[8] - 类内增强利用输入图像及其正样本的思考轨迹,捕获更广泛的类内变化,当模型对两者产生不同预测时,奖励差异会促使模型仅关注判别性特征[8][10] - 类间增强通过最大化输入/正样本图像与负样本图像之间输出分布的KL散度,促进模型对来自不同子类别的相似图像生成不同响应,增强判别性[10][11] 性能表现与结果 - 在每类仅需4张训练图像的情况下,Fine-R1对训练集内外子类别的识别准确率均超越了OpenAI的CLIP、谷歌DeepMind的SigLIP等判别式模型[5] - 在6个权威细粒度图像分类数据集上的封闭式识别(多选题)结果显示,Fine-R1-7B模型在已见类别上的平均准确率达到91.71%,在未见类别上达到85.70%,总体平均为88.71%,显著优于对比模型[14][15] - 在开放式识别(问答题)任务中,Fine-R1-7B模型在已见类别上的平均准确率达到82.62%,在未见类别上达到66.97%,总体平均为74.80%,超越了主流的通用多模态大模型与推理大模型[16][17] - 实验分析表明,Fine-R1主要通过提升“模型运用细粒度子类别知识的能力”提高了识别准确率,而非优化视觉表征或增加知识储备[19] - 案例展示表明,Fine-R1能通过将思考过程拆分为视觉分析、候选子类别生成、对比分析、最终预测,利用知识逐步推理以准确识别细粒度子类别[21] 研究影响与资源 - 该研究相关论文已被ICLR 2026接收,并已开源[2] - 论文标题为“Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning”,论文、开源代码及模型地址均已公开[22] - 该研究展现了生成式多模态大模型在解决判别式任务上的巨大潜力[5]
牛津VGG、港大、上交发布ELIP:超越CLIP等,多模态图片检索的增强视觉语言大模型预训练
机器之心· 2025-10-29 19:02
核心观点 - 提出一种名为ELIP的方法,旨在利用学术界有限的计算资源来增强视觉语言大模型的预训练,以提升其在文字-图片检索任务中的性能 [2] - 该方法的核心思想是通过一个轻量级的MLP映射网络,将语言信息注入到图像编码器中,实现两阶段(ranking + re-ranking)的检索流程 [5] - ELIP方法被证明可以显著提升包括CLIP、SigLIP、SigLIP-2和BLIP-2在内的多种主流视觉语言模型的检索效果,并在新的OOD测试集上展现出强大的泛化能力 [20][21][22] 方法概览 - ELIP方法首先使用传统模型(如CLIP/SigLIP)进行初步排序,然后对排名靠前的候选结果进行重新排序 [5] - 重新排序的关键是一个简单的三层MLP映射网络,该网络将文本特征映射为视觉域中的token,并将其插入图像编码器,使图像编码过程能感知语言信息 [5][9] - 该方法具有通用性,可应用于CLIP、SigLIP、SigLIP-2和BLIP-2等模型,分别称为ELIP-C、ELIP-S、ELIP-S-2和ELIP-B [5] 模型架构创新 - 模型架构的主要创新在于仅需训练一个轻量级的MLP映射网络,而庞大的图像和文本编码器的权重保持固定,这大大降低了计算资源需求 [8][9] - 对于CLIP和SigLIP模型,训练时分别沿用InfoNCE损失函数和Sigmoid损失函数来对齐文本特征和重新计算后的图像特征 [9] - 对于BLIP-2模型(ELIP-B),由文本引导的图像特征被输入Q-Former与文本进行交叉注意力计算,最终由ITM Head预测图文匹配度,训练沿用BLIP-2的BCE损失函数 [11] 训练数据创新 - 针对学术界GPU资源有限导致训练批次大小(batch size)较小的问题,作者提出了一种硬样本训练批次构建方法 [13] - 该方法预先计算训练图片和对应文字标题的CLIP特征,然后将特征相似的图文对聚集在一起,形成一个包含挑战性样本的训练批次,以提升模型的分辨能力 [13][15] 新的评测数据集 - 除了COCO和Flickr等标准测试集,作者引入了两个新的分布外(OOD)测试集:Occluded COCO和ImageNet-R,以评估模型的泛化能力 [17][18] - Occluded COCO数据集中的正样本包含被遮挡的物体,ImageNet-R数据集中的正样本包含来自不常见领域的物体 [18] 实验结果 - 在COCO数据集上,ELIP-C将CLIP的平均Recall从60.58提升至65.71;ELIP-S将SigLIP的平均Recall从71.74提升至77.45;ELIP-S-2将SigLIP-2的平均Recall从73.72提升至78.82 [21] - 在Flickr数据集上,ELIP-C将CLIP的平均Recall从82.97提升至85.87;ELIP-S将SigLIP的平均Recall从92.37提升至94.98;ELIP-S-2将SigLIP-2的平均Recall从92.92提升至94.88 [21] - ELIP-B将BLIP-2在COCO上的平均Recall从82.87提升至83.02,在Flickr上从95.62提升至95.88,表现超过了最新的Q-Pert方法 [21] - 在OOD测试集上,所有ELIP变体均取得了零样本泛化提升,例如ELIP-S在Occluded COCO上的零样本性能为64.58,经过微调后可达71.99 [22] - 注意力图分析表明,当文本查询与图片相关时,ELIP能够增强模型对文字描述相关区域的注意力 [23]
谢赛宁新作:VAE退役,RAE当立
量子位· 2025-10-14 16:16
文章核心观点 - 谢赛宁团队提出表征自编码器RAE将取代变分自动编码器VAE,标志着VAE时代的结束[1][4] - RAE采用预训练表征编码器与轻量级解码器配对,在扩散Transformer模型中实现更高质量重建和更快收敛速度[3][9][19] - 该方法在ImageNet图像生成任务中取得FID 1.51(无引导)和1.13(有引导)的优异表现[6] RAE技术原理与优势 - RAE核心设计是用预训练表征编码器(DINO、SigLIP、MAE等)与训练后的轻量级解码器配对[3] - 无需额外表示对齐损失或辅助损失函数,架构简洁但重建质量超越SD-VAE[9][10] - 提供语义丰富的潜空间,支持可扩展的基于变换器的架构[4] 传统VAE的局限性 - SD-VAE需要约450 GFLOPs运算量,而简易ViT-B编码器仅需22 GFLOPs,架构过于复杂[7] - VAE潜空间过度压缩(只有4个通道),信息容量严重受限[7] - VAE表征能力薄弱,线性探测精度约8%,特征质量低下拖慢收敛速度并损害生成质量[7][11] RAE性能表现 - 在重建质量指标rFID上:DINOv2-B为0.49,SigLIP2-B为0.53,MAE-B为0.16,均优于SD-VAE的0.62[11] - 在表征质量指标Top-1准确率上:DINOv2-B达84.5%,SigLIP2-B达79.1%,MAE-B达68.0%,远高于SD-VAE的8.0%[11] - 收敛速度比基于SD-VAE的REPA快达16倍[19] DiT架构适配与优化 - 采用宽DiT设计,要求变换器宽度至少等于潜表征维度[14] - 调整噪声调度使扩散模型适应增加的输入通道维度[17] - 在解码器训练中注入微量噪声,提升对潜空间扩散误差的鲁棒性[17] - 引入极宽但极浅的扩散头部设计,提升DiT在RAE框架内的可扩展性[21][22]