85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型
| 机器之心报道 | | --- | FastVLM—— 让苹果手机拥有极速视觉理解能力 当你用苹果手机随手拍图问 AI:「这是什么?」,背后的 FastVLM 模型正在默默解码。 最近,苹果开源了一个能在 iPhone 上直接运行的高效视觉语言模型 ——FastVLM(Fast Vision Language Model)。 代码链接: https://github.com/apple/ml-fastvlm 代码仓库中还包括一个基于 MLX 框架的 iOS/macOS 演示应用,优化了在苹果设备上的运行性能。 看这个 demo,反应速度是不是反应非常「Fast」!这就是 FastVLM 的独特之处。 相较于传统模型,FastVLM 模型专门注重于解决 体积、速度 这两大问题,速度快到相对同类模型, 首个 token 输出速度提升 85 倍 。 该模型引入了一种新型混合视觉编码器 FastViTHD ,融合了卷积层和 Transformer 模块,配合多尺度池化和下采样技术,把图片处理所需的「视觉 token」数量砍 到极低 —— 比传统 ViT 少 16 倍,比 FastViT 少 4 倍。它以卓越的速度和 ...