MobileCLIP2
搜索文档
苹果端侧AI两连发,模型体积减半、首字延迟降85倍,iPhone离线秒用
36氪· 2025-09-08 10:42
核心观点 - 苹果发布两条多模态主线FastVLM和MobileCLIP2 主打快速响应和轻量化部署 模型和Demo已全面开放 支持Safari网页直接体验 实现大模型在手机端的高效运行 [1] 技术特性 - FastVLM采用自研FastViTHD编码器 通过动态缩放和混合设计处理高分辨率图像 首字延迟仅为竞品LLaVA-OneVision-0.5B的1/85 [2][4] - FastVLM在0.5B/1.5B/7B参数规模下均保持低延迟和高精度 在7项视觉语言任务中准确率与竞品相当但延迟显著更低 [6] - MobileCLIP2通过多模态蒸馏和数据增强技术 在ImageNet-1k上零样本精度与SigLIP-SO400M/14相当但参数量减半 iPhone 12 ProMax延迟比DFN ViT-L/14低2.5倍 [9][14] 应用场景 - FastVLM支持实时字幕生成 在无障碍场景中实现盲文输入与屏幕阅读器同步 [21][23] - MobileCLIP2支持离线图像检索和描述 无需云端算力 保障数据安全且响应即时 [14][17] - 两者组合可覆盖实时字幕 相机翻译 相册语义搜索等场景 通过Core ML+Swift Transformers工具链集成至iOS/macOS应用 [17][19][24] 开发者支持 - 提供Hugging Face模型卡和WebGPU Demo Safari授权摄像头即可体验实时功能 [8][15][17] - 配套Core ML工具链和WWDC文档 支持调用GPU与神经引擎 优化性能与能耗 [19][24] - 兼容性存在部分限制 WebGPU在不同浏览器和机型表现不一致 端侧模型需权衡算力与续航 [24]
苹果沉默一年,终于亮出AI底牌
虎嗅APP· 2025-09-05 21:56
苹果端侧AI战略 - 苹果在HuggingFace上全面开源视觉语言模型FastVLM和MobileCLIP2 构成其端侧AI小模型战略核心[4][5] - FastVLM在生成第一个token的响应速度上比同类模型LLaVA-OneVision-0.5B快85倍 视觉编码器规模缩小3.4倍[7][9] - 7B版本性能优于Cambrian-1-8B模型 响应速度快7.9倍 通过混合视觉编码器FastViTHD实现速度与性能平衡[9] 技术实现特点 - FastVLM采用卷积网络和Transformer融合的混合视觉编码器 减少高分辨率图像处理产生的tokens数量[10] - 模型支持0.5B/1.5B/7B多个尺寸 可在iPhone等个人设备实现实时浏览器字幕功能[13][14] - 处理单帧画面仅需1-2秒 8帧关键帧分析在几秒内完成 在保证速度同时维持极高准确性[16][22] 行业背景与战略定位 - 苹果面对AI进展缓慢质疑 内部组建AKI团队瞄准ChatGPT 同时推进端侧小模型B计划[36] - 2024年7月开源DCLM-7B模型性能逼近Mistral-7B和Llama3 显示小模型技术积累[37] - WWDC 2024宣布Apple Intelligence由多个高度优化的AI小模型组成矩阵处理日常任务[37] 商业逻辑与竞争优势 - 端侧AI战略基于用户体验/软硬件生态/用户隐私三大基石 符合品牌承诺[39][44] - 本地设备处理避免敏感数据上传 与百度合作因隐私政策分歧受阻[42][44] - 利用A系列/M系列芯片边际性能 实现最经济可持续的商业模式[46][48] 行业趋势 - 英伟达认为小模型是Agent未来 初创公司通过小模型切入医疗/金融等垂直领域[48] - 行业对小模型兴趣升温 但苹果将其提升到生死存亡战略高度[49][51]
苹果沉默一年,终于亮出AI底牌
虎嗅· 2025-09-04 22:21
苹果开源视觉语言模型FastVLM和MobileCLIP2 - 苹果在HuggingFace上全面开源视觉语言模型FastVLM和MobileCLIP2 构成端侧AI小模型战略核心 [1][3] - FastVLM在部分任务响应速度比同类模型LLaVA-OneVision-0.5B快85倍 视觉编码器规模缩小3.4倍 [2][6] - FastVLM-7B版本与Cambrian-1-8B对比时性能更优 生成首个token响应速度快7.9倍 [6] 技术架构与性能表现 - 采用新型混合视觉编码器FastViTHD 结合卷积网络和Transformer 输出更少但更精华的tokens [7][9] - 支持高分辨率图像快速编码 在iPhone等个人设备实现实时任务处理 [5][14] - 提供0.5B/1.5B/7B多个版本 实测单帧画面分析时间仅1-2秒 8帧解读在几秒内完成 [13][17] 端侧AI战略定位 - 苹果通过小模型战略强化隐私保护 数据处理完全在设备端完成 避免云端传输敏感信息 [43][49] - 端侧AI保障用户体验可靠性 摆脱网络依赖 在无信号环境下保持核心智能功能在线 [50] - 利用A系列/M系列芯片边际性能 将计算任务分配至本地设备 形成经济可持续的商业模式 [51][53] 行业背景与战略布局 - 苹果面对AI竞争压力 内部组建AKI团队瞄准ChatGPT 同时推进端侧小矩阵模型开发 [40][41] - 2024年7月发布DCLM-7B开源模型 性能逼近Mistral-7B/Llama3等同级模型 [41] - WWDC 2024宣布Apple Intelligence由多专业小模型组成 处理邮件整理/文稿润色等日常任务 [41] 行业趋势与差异化路径 - 英伟达等企业重视小模型作为Agent未来 初创公司聚焦医疗/金融等垂直领域微调应用 [54] - 苹果端侧战略与其硬件生态/隐私承诺深度绑定 区别于行业主流云端大模型路径 [43][56] - 行业普遍追求参数规模时 苹果通过专才型小模型在细分场景实现更精准性能表现 [50]
苹果最新模型,5年前的iPhone能跑
36氪· 2025-09-01 19:37
公司技术发布 - 苹果于8月28日在arXiv发布新论文,介绍新一代多模态基础模型MobileCLIP2及其多模态强化训练机制,并同期在GitHub、Hugging Face上开源模型预训练权重和数据生成代码 [1] - MobileCLIP2专为零样本分类和检索任务设计,参数规模在50百万至1.5亿不等,推理延迟在3-15毫秒之间 [1] - 与上一代模型相比,MobileCLIP2-B在ImageNet-1k上的零样本准确率提高了2.2% [1] 模型性能优势 - MobileCLIP2-S4在iPhone 12 Pro Max上测得的零样本准确率可对标参数规模更大的SigLIP-SO400M/14,但参数量仅为后者的一半 [1][4] - 在延迟方面,MobileCLIP2-S4的表现优于DFN ViT-L/14,延迟约为后者的40% [4] - MobileCLIP2系列模型在38个数据集上的平均性能均为最佳,其中MobileCLIP2-S2与SigLIP2-B/32参数规模相差4倍但性能相当,MobileCLIP2-S4相比DFN ViT-L/14推理速度提高2.5倍 [6] 技术机制创新 - 多模态强化训练机制整合了改进的教师监督与字幕数据,旨在提升模型鲁棒性和迁移性,同时降低计算开销 [2][9] - 通过用DFN预训练的CLIP模型替换先前的集成来改进教师监督,教师信号聚合使集成蒸馏在ImageNet-1k验证集上比单教师变体提高高达2.8%的准确率 [9][10] - 字幕生成教师模型通过两阶段协议升级优化,并在高质量标题数据集上微调,生成具有增强语义质量和多样性的合成标题,提升模型语义覆盖范围 [11] 开发者生态与部署 - 训练机制支持多模态模型直接在移动、边缘设备上部署,实现零样本检索/分类,具有极低的延迟和内存占用 [2][8] - 苹果开源了所有模型变体的预训练权重和数据生成代码,支持开发者直接部署、基准测试及创建具有任意教师的强化数据集 [2][12] - 开放的数据管道和模块化的教师、标题生成器集成,使该机制可扩展到新的模态或数据域,降低开发者部署和实验门槛 [8][12]