MetaCLIP 2

搜索文档
谢赛宁团队新作打破“多语言诅咒”!MetaCLIP 2支持300多种语言,英语性能反倒提升了
量子位· 2025-07-31 14:51
一水 发自 凹非寺 量子位 | 公众号 QbitAI 谢赛宁团队新作正在引起热议! 一直以来,作为文生图基石的CLIP模型主要基于英文数据训练,但实际上,全球互联网仍有 超过50% 的非英文数据。 为了将CLIP模型进一步扩展,研究人员需要搞定两大"拦路虎": 缺乏处理非英语数据的筛选方法; 现有多语言CLIP的英语性能比纯英语版本差 (即所谓的"多语言诅咒") 。 而谢赛宁团队正是在这两方面取得突破。他们提出了首个基于全球数据从头训练的CLIP—— MetaCLIP 2 ,通过扩展元数据、优化筛选和提 升模型容量,斩获了以下成果: 1. 搭建了能处理 300多种语言 的CLIP数据整理流程。 2. 打破了"多语言诅咒",不仅没有影响英语任务的表现,而且反倒还提升了。 论文一作Yung-Sung Chuang (MIT博士生、现Meta实习生) 激动表示: 是时候告别语言过滤器了! 刚被小扎从OpenAI挖走的Lucas Beyer也出来对这一观点表示认同,顺带还感谢了论文中的引用: 很高兴看到我们提出并始终倡导的 "NoFilter"理念 能在MetaCLIP 2中得到应用。 这也引来了谢赛宁本人的回应: ...
OpenAI提出的CLIP,被Meta联合谢赛宁、刘壮,扩展到全球300+语言
机器之心· 2025-07-31 13:11
MetaCLIP 2的核心创新 - 提出首个从零开始在原生全球图文对上训练CLIP的方法,不依赖外部资源如私有数据或机器翻译 [2] - 通过元数据拓展、数据筛选算法和训练框架三项核心创新实现全球扩展能力,覆盖300多种语言 [5] - 实验证明英语与非英语数据可互利,ViT-H/14模型在ImageNet英语准确率从80.5%提升至81.3%,多语言任务创SOTA [6][10] 技术架构与训练方法 - 元数据覆盖维基百科与多语言WordNet,采用语言隔离的子串匹配算法保持概念分布均衡 [22][24] - 训练框架同步扩大批次规模2.3倍(从32,768增至75,366),确保英语数据占比44%不变 [26][27][30] - 使用多语言tokenizer(XLM-V最优)和最小可行模型容量研究,保持与OpenAI CLIP架构一致性 [20][37] 性能优势与行业影响 - 在Babel-ImageNet、XM3600等多语言基准上性能超越mSigLIP 3.8%-7.6%,使用图文对数量仅为竞品72% [32][34] - 保留文化多样性数据分布,提升地理定位能力(如GLDv2任务69.0% Top-1准确率) [13][39] - 提供全球规模图文对数据集,支持MLLM、图像生成等下游应用,填补非英语数据处理的空白 [15][7] 实验验证与突破 - 消融实验显示语言隔离和t_lang调整机制对性能提升关键,ViT-H/14模型打破"多语言诅咒" [31][36] - 全球数据训练使英语与非英语任务同步优化,XM3600检索任务达到64.3%准确率 [6][32] - 嵌入质量评估显示MetaCLIP 2在对齐度和均匀性指标上优于SigLIP系列模型 [39]