MetaCLIP 2 - 财报，业绩电话会，研报，新闻

MetaCLIP 2

搜索文档

谢赛宁团队新作打破“多语言诅咒”！MetaCLIP 2支持300多种语言，英语性能反倒提升了

量子位· 2025-07-31 14:51

行业突破 - 全球互联网数据中超过50%为非英文内容但传统CLIP模型主要基于英文数据训练凸显多语言处理需求[1] - 多语言CLIP面临两大核心挑战：缺乏非英语数据筛选方法以及英语性能下降的"多语言诅咒"[2] 技术创新 - MetaCLIP 2实现三大突破：建立300多种语言处理流程优化数据筛选算法提升模型容量[2][8] - 采用"NoFilter"理念通过概念平衡替代语言过滤构建多语言视觉概念词典（含WordNet和维基百科词汇）[3][5][15] - 数据筛选机制创新：语言识别+定制化标准控制常见与罕见概念比例确保数据分布合理性[16][17] 性能表现 - 打破"多语言诅咒"：英语ImageNet准确率达81.3% 超越纯英语CLIP的80.5%[24][25] - 多语言任务创SOTA：Babel-ImageNet分类准确率50.2% XM3600跨语言检索准确率64.3%[26][27] - 文化多样性优势：在Dollar Street/GLDv2等数据集 Top-5准确率最高达69.0%[28][29] 技术细节 - 训练规模显著扩大：ViT-H/14模型使用290亿样本较基线扩大2.3倍[19][23] - 模型容量关键作用：ViT-H/14架构成功消除多语言诅咒实现英语与非英语能力同步提升[19] - 参数调整策略：将平衡阈值t从20k提升至170k 适配十亿级数据规模[12] 行业影响 - 研究团队含MIT博士及OpenAI资深专家技术路线获行业认可[3][4] - 完整开源生态：发布论文及代码库推动多模态领域发展[32]

OpenAI提出的CLIP，被Meta联合谢赛宁、刘壮，扩展到全球300+语言

机器之心· 2025-07-31 13:11

MetaCLIP 2的核心创新 - 提出首个从零开始在原生全球图文对上训练CLIP的方法，不依赖外部资源如私有数据或机器翻译 [2] - 通过元数据拓展、数据筛选算法和训练框架三项核心创新实现全球扩展能力，覆盖300多种语言 [5] - 实验证明英语与非英语数据可互利，ViT-H/14模型在ImageNet英语准确率从80.5%提升至81.3%，多语言任务创SOTA [6][10] 技术架构与训练方法 - 元数据覆盖维基百科与多语言WordNet，采用语言隔离的子串匹配算法保持概念分布均衡 [22][24] - 训练框架同步扩大批次规模2.3倍（从32,768增至75,366），确保英语数据占比44%不变 [26][27][30] - 使用多语言tokenizer（XLM-V最优）和最小可行模型容量研究，保持与OpenAI CLIP架构一致性 [20][37] 性能优势与行业影响 - 在Babel-ImageNet、XM3600等多语言基准上性能超越mSigLIP 3.8%-7.6%，使用图文对数量仅为竞品72% [32][34] - 保留文化多样性数据分布，提升地理定位能力（如GLDv2任务69.0% Top-1准确率） [13][39] - 提供全球规模图文对数据集，支持MLLM、图像生成等下游应用，填补非英语数据处理的空白 [15][7] 实验验证与突破 - 消融实验显示语言隔离和t_lang调整机制对性能提升关键，ViT-H/14模型打破"多语言诅咒" [31][36] - 全球数据训练使英语与非英语任务同步优化，XM3600检索任务达到64.3%准确率 [6][32] - 嵌入质量评估显示MetaCLIP 2在对齐度和均匀性指标上优于SigLIP系列模型 [39]

Meta Platforms(US:META)

多语言大模型

全球尺度训练

Artificial Intelligence

Artificial Intelligence

CLIP

MetaCLIP 2