NeurIPS 2025 Spotlight | 条件表征学习:一步对齐表征与准则
机器之心·2025-10-15 10:54
文章核心观点 - 传统图像表征学习方法仅能提取通用信息(如主体类别),忽略了图像中其他多维信息(如数量、环境等)[2] - 提出一种名为条件表征学习(CRL)的新方法,能够根据指定准则(如颜色、形状)生成更具表现力的条件表征[4][9] - CRL方法无需额外训练,通过将通用图像表征投影到由大语言模型生成的文本概念空间即可实现,是一种高效的即插即用模块[9][13] 方法 - 方法灵感来源于三维坐标系和颜色三原色理论,认为对于任意给定准则,存在对应的“概念空间”及其基向量[8] - 技术流程为:首先使用大语言模型(LLM)生成与指定准则相关的描述文本,然后将视觉语言模型(VLM)得到的通用图像表征投影到该文本基张成的空间中[9] - 该方法的核心操作是图像与文本表征的矩阵乘法,实现简单,复现难度低[13] 实验验证 - 在少样本分类任务上,CRL与现有模型结合后性能显著提升,例如CLIP+CRL在Clevr4-10k数据集的颜色准则上ACC达到88.05%,远超CLIP baseline的12.23%[18] - 在定制化聚类任务上,CRL模块展现出强大性能,BLIP2+CRL在Cards数据集的Suits准则上ACC达到76.07%,NMI达到60.86%[18] - 在相似度检索任务上,CLIP+CRL在Focus和Change任务上的平均召回率(Mean)达到26.8%,显著优于CLIPimage+text的19.9%[22] - 实验结果表明CRL可作为通用增强模块,与CLIP、ALIGN、MetaCLIP、BLIP2等多种多模态模型结合,均能提升其在特定准则下游任务中的性能[18][22][25]