零样本分类和检索
搜索文档
苹果最新模型,5年前的iPhone能跑
36氪· 2025-09-01 19:37
公司技术发布 - 苹果于8月28日在arXiv发布新论文,介绍新一代多模态基础模型MobileCLIP2及其多模态强化训练机制,并同期在GitHub、Hugging Face上开源模型预训练权重和数据生成代码 [1] - MobileCLIP2专为零样本分类和检索任务设计,参数规模在50百万至1.5亿不等,推理延迟在3-15毫秒之间 [1] - 与上一代模型相比,MobileCLIP2-B在ImageNet-1k上的零样本准确率提高了2.2% [1] 模型性能优势 - MobileCLIP2-S4在iPhone 12 Pro Max上测得的零样本准确率可对标参数规模更大的SigLIP-SO400M/14,但参数量仅为后者的一半 [1][4] - 在延迟方面,MobileCLIP2-S4的表现优于DFN ViT-L/14,延迟约为后者的40% [4] - MobileCLIP2系列模型在38个数据集上的平均性能均为最佳,其中MobileCLIP2-S2与SigLIP2-B/32参数规模相差4倍但性能相当,MobileCLIP2-S4相比DFN ViT-L/14推理速度提高2.5倍 [6] 技术机制创新 - 多模态强化训练机制整合了改进的教师监督与字幕数据,旨在提升模型鲁棒性和迁移性,同时降低计算开销 [2][9] - 通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督,教师信号聚合使集成蒸馏在ImageNet-1k验证集上比单教师变体提高高达2.8%的准确率 [9][10] - 字幕生成教师模型通过两阶段协议升级优化,并在高质量标题数据集上微调,生成具有增强语义质量和多样性的合成标题,提升模型语义覆盖范围 [11] 开发者生态与部署 - 训练机制支持多模态模型直接在移动、边缘设备上部署,实现零样本检索/分类,具有极低的延迟和内存占用 [2][8] - 苹果开源了所有模型变体的预训练权重和数据生成代码,支持开发者直接部署、基准测试及创建具有任意教师的强化数据集 [2][12] - 开放的数据管道和模块化的教师、标题生成器集成,使该机制可扩展到新的模态或数据域,降低开发者部署和实验门槛 [8][12]