超越CLIP,北大开源细粒度视觉识别大模型,每类识别训练仅需4张图像
36氪·2026-02-11 16:03

研究背景与核心问题 - 北京大学彭宇新教授团队在细粒度多模态大模型领域取得突破,相关论文已被ICLR 2026接收并已开源[1] - 真实世界具有细粒度特性,对象包含极其丰富的类别层次,例如民用飞机数据库收录全球固定翼飞机种类超过500种[2] - 细粒度视觉识别在现实生产和生活中具有重要价值,但传统识别方法局限于封闭域中的有限类别[4] - 多模态大模型进行细粒度识别面临两大挑战:依赖大量训练数据但细粒度标注数据收集难度高、成本大;在有限数据上训练后难以泛化到训练集外的开放域子类别[4] 解决方案与模型架构 - 团队提出了思维链推理增强的细粒度视觉识别大模型Fine-R1,旨在利用多模态大模型的丰富知识和生成式解码范式,实现开放域任意类别对象的细粒度识别[4] - Fine-R1采用两阶段方案构建[5] - 第一阶段为思维链监督微调:基于Qwen2.5-VL-32B为少量数据构建结构化思维链,将推理过程拆解为视觉分析、候选子类别生成、对比分析及最终预测四个步骤,并对基础模型进行监督微调[7] - 第二阶段为三元组增强策略优化:针对细粒度识别“类内差异大、类间差异小”的问题,通过构建输入图像、正样本(同一子类别)和负样本(不同子类别)的三元组,同时提升模型对类内差异的鲁棒性与类间差异的辨识性[8] 技术细节与优化策略 - 类内增强:同时利用输入图像及其正样本的思考轨迹,以捕获更广泛的类内变化,当模型对两者产生不同预测时,奖励差异会促使模型仅关注判别性特征[8][9] - 类间增强:通过最大化输入/正样本图像与负样本图像之间输出分布的KL散度,促进模型对来自不同子类别的相似图像生成不同响应,从而增强模型对类间差异的辨识性[9][10][11] - 最终目标函数结合了类内与类间增强[12] 实验结果与性能表现 - 在封闭式识别(多选题)任务中,每类仅需4张训练图像,Fine-R1对训练集内(Seen Categories)和训练集外(Unseen Categories)子类别的平均识别准确率均超越主流模型[13] - Fine-R1-7B模型在训练集内子类别的平均识别准确率达到91.71%,在训练集外子类别的平均识别准确率达到85.70%,整体平均准确率为88.71%[13] - Fine-R1-3B模型在训练集内子类别的平均识别准确率为88.97%,在训练集外子类别的平均识别准确率为81.41%,整体平均准确率为85.19%[13] - 在开放式识别(问答题)任务中,同样在每类仅需4张训练图像的情况下,Fine-R1对训练集内外子类别的识别准确率超越了主流的通用多模态大模型与推理大模型[14] - Fine-R1-7B模型在开放式识别任务中的整体平均准确率达到74.80%,Fine-R1-3B模型达到67.32%[14] 模型优势与能力分析 - Fine-R1在每类仅需4张训练图像的极低数据需求下,对训练集内外子类别的识别准确率均超越了OpenAI的CLIP、谷歌DeepMind的SigLIP等判别式模型[4][13] - 实验分析表明,Fine-R1性能提升的主要原因是提升了“模型运用细粒度子类别知识的能力”,而非优化视觉表征或增加知识储备[16] - 案例展示表明,Fine-R1能通过将思考过程拆分为视觉分析、候选子类别生成、对比分析、最终预测,利用知识逐步推理以准确识别细粒度子类别[18] - 该研究展现了生成式多模态大模型在解决判别式任务上的巨大潜力[4] 行业影响与资源 - 该研究代表了细粒度多模态大模型领域的前沿进展,相关论文、开源代码及模型均已公开[19] - 开源代码发布于GitHub平台,模型地址位于Hugging Face[19] - 该成果由北京大学彭宇新教授团队完成,实验室为北京大学多媒体信息处理实验室[19]