Workflow
图文跨模态“近视”问题破局:360开源新模型 FG-CLIP,实现细粒度图文对齐突破|ICML2025
AI科技大本营·2025-05-19 16:05

CLIP 看不清的细节,FG-CLIP 看懂了 作者 | 谢春宇,王斌,360人工智能研究院 责编 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 还在为搜图不够精准、推荐不够懂你而烦恼? 360 人工智能研究院发布的全新 FG-CLIP(Fine Grained CLIP) 模型,让 AI 也能像"老司机"一样,练就"眼观六路"的本领。 有了 FG-CLIP,它能瞬间辨别 "穿着浅蓝色夹克的男人" vs "穿着草绿色夹克男人"、" 陶瓷茶杯"与"玻璃茶杯" 的细微差别,图片被裁切也不怕,照样 精准识别目标,甚至连那张藏在小狗身后、位于画面角落的 浅棕色木凳子 ,它也不会放过。 大家平时刷到的那些"神操作" 其实都离不开它:比如用手机输入文字就能生成动漫插画、风景海报的绘图软件(Stable Diffusion、可图),还有能 把 "小猫追蝴蝶" 的文字描述变成动态视频的工具(Sora、即梦),背后都需要这位 "翻译官" 先把文字和图片的信息 "翻译" 成机器能懂的语言,让两 者 "对上频道"。 不只是这些有趣的应用,咱们日常生活里处处都有它的影子: 图文跨模态模型 显式双塔结构解耦: 突破传 ...