Workflow
360开源高质量图文对齐数据集!收纳1200万张图像+1000万组细粒度负样本,让模型告别“图文不符”
量子位·2025-05-31 11:45

FineHARD团队 投稿 量子位 | 公众号 QbitAI 如何让CLIP模型更关注细粒度特征学习,避免"近视"? 360人工智能研究团队提出了 FG-CLIP ,可以明显缓解CLIP的"视觉近视"问题。 让模型能更关注于正确的细节描述,而不是更全局但是错误的描述。 模型成功的关键在于 高质量数据 。 就在最近,冷大炜博士团队将这一"秘籍"开源: FineHARD高质量图文对齐数据集 。该数据集主打两个核心特点: 细粒度+难负样本 。 FineHARD是FG-CLIP模型背后的高质量图文对齐数据集,以规模化与精细化为特色, 包含1200万张图像 及其对应的长、短描述文本,覆 盖 4000万 个边界框,每个边界框均附带细粒度区域描述(Fine-Grained Regional Description)。 此外,FineHARD创新性地引入了 1000万组 细粒度难负样本(Hard Fine-grained Negative Samples),这些经过算法筛选的干扰样本能 够有效提升模型对相似目标的区分能力。 基于该数据集训练的FG-CLIP已被ICML25接收,它在各种下游任务中显著优于原始CLIP和其他最先 ...