图文跨模态“近视”问题破局：360开源新模型 FG-CLIP，实现细粒度图文对齐突破｜ICML2025

CLIP 看不清的细节，FG-CLIP 看懂了作者 | 谢春宇，王斌，360人工智能研究院责编 | 梦依丹出品丨AI 科技大本营（ID：rgznai100）还在为搜图不够精准、推荐不够懂你而烦恼？ 360 人工智能研究院发布的全新 FG-CLIP（Fine Grained CLIP）模型，让 AI 也能像"老司机"一样，练就"眼观六路"的本领。有了 FG-CLIP，它能瞬间辨别 "穿着浅蓝色夹克的男人" vs "穿着草绿色夹克男人"、" 陶瓷茶杯"与"玻璃茶杯" 的细微差别，图片被裁切也不怕，照样精准识别目标，甚至连那张藏在小狗身后、位于画面角落的浅棕色木凳子，它也不会放过。大家平时刷到的那些"神操作" 其实都离不开它：比如用手机输入文字就能生成动漫插画、风景海报的绘图软件（Stable Diffusion、可图），还有能把 "小猫追蝴蝶" 的文字描述变成动态视频的工具（Sora、即梦），背后都需要这位 "翻译官" 先把文字和图片的信息 "翻译" 成机器能懂的语言，让两者 "对上频道"。不只是这些有趣的应用，咱们日常生活里处处都有它的影子：图文跨模态模型显式双塔结构解耦：突破传 ...