Workflow
360开源高质量图文对齐数据集!收纳1200万张图像+1000万组细粒度负样本,让模型告别“图文不符”

核心观点 - 360人工智能研究团队提出FG-CLIP模型,显著缓解CLIP的"视觉近视"问题,使其更关注细粒度特征学习[1] - 模型成功关键在于高质量数据,团队开源FineHARD数据集,包含1200万张图像、4000万边界框及1000万组细粒度难负样本[3][4] - FineHARD数据集以细粒度+难负样本为核心特点,显著提升模型在下游任务表现[4][6] - FG-CLIP已被ICML25接收,在细粒度理解、开放词汇对象检测等任务中优于原始CLIP和其他先进方法[4] 数据集构建 - 数据规模:1200万张高质量图像,4000万边界框标注,1000万组细粒度难负样本[7][11] - 计算资源:采用160×910B算力NPU集群,7天内完成数据清洗与多模态对齐[7] - 文本描述:基于GRIT数据集优化,平均描述长度从20词扩展至150词以上,提升语义密度[8][11] - 边界框增强:通过Yolo-World模型生成额外边界框,NMS技术过滤低质量预测(置信度>0.4)[9] 技术特点 - 全局细粒度对齐:为每张图像生成包含场景背景、对象属性的长文本描述(平均150词)[11] - 局部细粒度对齐:开放世界目标检测提取4000万bounding box及对应区域级描述[11] - 难负样本生成:基于属性扰动方法生成1000万组样本,人工复核显示98.9%符合质量标准[14][15] - 多样性优势:在243k图像子集中包含21k独立类别标签,显著高于V3Det的13k[25] 应用前景 - 多模态大模型训练:提升跨模态理解与生成能力,特别是图像细节理解[26] - 具身智能系统:结合细粒度空间描述,增强机器人环境感知与操作指令解析[26] - 3D场景建模:为虚拟场景重建提供高精度语义锚点,加速AR/VR技术发展[26] - 细粒度识别:通过难负样本对抗训练提升近似类别判别能力,推动安防零售应用[27] 数据集对比 - 规模优势:边界框数量(4000万)远超COCO(150万),图像数量(1200万)显著领先[22] - 质量优势:细粒度标注和难负样本设计提升模型性能表现[22] - 多样性优势:相同图像规模下独立类别标签数量显著高于V3Det等专业数据集[25]