Workflow
分类感知表征对齐方法(TARA)
icon
搜索文档
精准识别「界门纲目科属种」!北大彭宇新团队用细粒度树先验提升泛化,破解生物类别分层识别难题
量子位· 2026-03-21 17:32
MIPL 团队 投稿 量子位 | 公众号 QbitAI 一张蓝锥嘴雀的图片,你能认出它是"鸟",但能认出它是 "鸟纲-雀形目-唐纳雀科-锥嘴雀属-蓝锥嘴雀"吗? 像大多数人一样,现在的多模态大模型也认不出来。 真实世界中的对象通常包含极其丰富的类别层次,形成 类别树 结构。比如蓝锥嘴雀是:动物界-脊索动物门-鸟纲-雀形目-唐纳雀科-锥嘴雀属- 蓝锥嘴雀 (界-门-纲-目-科-属-种) 。 区别于传统的细粒度视觉识别, 分层视觉识别 旨在预测所属的所有类别层次,而不仅仅预测最终的细粒度类别。尽管现有Finedefics、Fine- R1等生成式大模型在细粒度视觉识别任务上表现出色,但由于缺乏类别树知识, 无法从粗到细实现每一层的精准识别 。 同时,采用分层类别标签对比学习得到的判别式大模型 (如BioCLIP、BioCLIP2、BioCAP等) ,其表征空间已能充分编码类别树中的类间 关系与类内关系。基于上述发现,本文 利用判别式大模型的表征指导生成式大模型的学习 ,为多模态大模型学习类别树提供了新路径。 本文是 北京大学彭宇新教授团队 在细粒度多模态大模型领域的最新研究成果, 相关论文已被CVPR 2026接 ...