精准识别「界门纲目科属种」！北大彭宇新团队用细粒度树先验提升泛化，破解生物类别分层识别难题

文章核心观点 - 北京大学彭宇新教授团队提出了一种名为分类感知表征对齐（TARA）的新方法，旨在解决多模态大模型在分层视觉识别任务中的关键缺陷[2][3] - 该方法通过将判别式生物基础模型（如BioCLIP）的类别树知识注入生成式多模态大模型，从而同时提升模型的细粒度识别能力和从粗到细的每一层分类准确性[2][6][7] - 实验证明，TARA方法能有效应对同层判别性差、跨层一致性差和新类泛化性差三大挑战，并在多个基准数据集上显著提升了性能，相关论文已被CVPR 2026接收并已开源[3][4][7][15][16] 研究背景与挑战 - 现有多模态大模型在细粒度视觉识别上准确率虽有提升，但在需要类别树知识的分层识别任务中表现不佳，无法实现从粗到细的每一层精准识别[4] - 主要面临三大挑战：同层判别性差（难以区分同一层的相似类别）、跨层一致性差（预测的相邻层次类别不满足父子节点关系）、新类泛化性差（难以识别训练集中未见过的新类别）[4] 技术方案：分类感知表征对齐（TARA） - TARA方法包含两个核心对齐部分：分层视觉表征对齐与自由粒度类别表征对齐[8] - 分层视觉表征对齐：通过将大模型中间层视觉表征与生物基础模型（如BioCLIP）的视觉表征对齐，促使大模型提取具备完整类别树结构的视觉特征[8][11] - 自由粒度类别表征对齐：通过将大模型输出答案的首个词元表征与生物基础模型编码的真实类别文本表征对齐，促使大模型能将视觉特征映射到指定层次的类别名称[8][12] - 模型训练采用无需思考的强化微调（No Thinking RFT）与TARA交替优化，推理时仅使用优化后的大模型，无需基础模型和映射层参与[14] 实验结果 - 在iNaturalist-Plant数据集上，应用TARA后，Qwen3-VL-2B模型的层次分类准确率（HCA）从9.23%提升至12.78%（+3.55个百分点），细粒度叶子节点准确率（Accleaf）从31.96%提升至32.66%（+0.70个百分点）[15] - 在iNaturalist-Animal数据集上，应用TARA后，Qwen3-VL-2B模型的HCA从8.57%提升至10.26%（+1.69个百分点），Accleaf从29.32%提升至30.77%（+1.45个百分点）[15] - 在TerraIncognita数据集的新类别（已知类别树之外的稀有物种）识别任务中，应用TARA后，对于已知类别，目（Order）层次的F1分数从23.30提升至41.56（+18.26），科（Family）层次的F1分数从11.47提升至25.47（+14.00）[17] - 对于全新类别，TARA方法通过引入类别树先验，促进了模型学习子类别的共性，从而提升了父类别的识别准确率[18] 方法优势与案例展示 - TARA方法能有效提升模型的同层判别性与跨层一致性，既能区分同一层的相似类别，又能确保相邻层次的预测满足父子节点关系[20] - 案例展示表明，相比基线模型（如Qwen3-VL-2B），采用TARA方法的模型在分层识别上表现更优[20]