帕累托最优曲线 - 财报，业绩电话会，研报，新闻 - Reportify

帕累托最优曲线

搜索文档

85倍速度碾压：苹果开源FastVLM，能在iphone直接运行的视觉语言模型

机器之心· 2025-05-17 00:31

苹果开源FastVLM模型 - 苹果开源高效视觉语言模型FastVLM，可在iPhone上直接运行，优化苹果设备性能[2][3] - 模型推出0.5B、1.5B、7B三个参数量级版本，提供stage2和stage3两阶段微调权重[7] - 代码仓库包含基于MLX框架的iOS/macOS演示应用，提升用户体验[3] FastVLM技术优势 - 首个token输出速度比同类模型提升85倍，视觉token数量比传统ViT少16倍[6] - 采用新型混合视觉编码器FastViTHD，融合卷积层和Transformer模块[6] - 多尺度池化和下采样技术显著降低图片处理所需视觉token数量[6] 模型架构创新 - FastViTHD专为高分辨率视觉语言处理设计，参数量比ViT-L/14小2.4倍，速度快6.9倍[37] - 架构包含五个阶段，前三阶段使用RepMixer模块，后两阶段采用多头自注意力[36] - 支持静态与动态输入分辨率策略，在目标分辨率下实现最佳精度-延迟平衡[49] 性能表现 - 在38项多模态零样本任务中表现与ViT-L/14相当，推理速度快5.6倍[37] - 相同0.5B LLM条件下性能媲美LLaVa-OneVision，TTFT快85倍[16] - 参数量仅为ConvNeXT-XXL的1/6.8，速度提升3.3倍[42] 应用场景 - 兼容主流LLM并适配iOS/Mac生态，适合边缘设备和端侧AI应用[6] - 支持图像自动生成陈述、问答、数据分析和对象识别等功能[6] - 优化实时图文任务场景，显著提升AI与图像交互体验[6]

苹果(US:AAPL)

视觉语言模型

帕累托最优曲线

视觉语言模型

帕累托最优曲线