Workflow
苹果推出的视频识别模型:FastVLM,让AI有了眼睛
苹果苹果(US:AAPL) 36氪·2025-09-05 08:06

这个模型不仅还可以在原生手机客户端运行,还能够支持web浏览器,可以精准的识别现实物理世界的物品、字体、甚至是内容含义,让开发者可以快速 调用。 就在最近苹果更新了一个新的模型,叫做FastVLM,是开源的,还只有7B,显存占用不到10多个GB,这个模型在依靠阿里Qwen2-7B做出更深度的训练。 这个模型最大的突破就是识别视频流,在算法层面上,论文指出其准确度都是最高 这个模型的生成原理如下,通过将视频将一阵一阵的图像进行处理,并且通过提取每一帧图像的特征再来汇总最后在第五步的时候将特征汇总,然后再通 过文本向量数据库将其结果与其匹配。 相较于其他AI产品经理,这个视觉生成模型最好的是提供了视觉一体化的方案,并且由于更低的延迟,可以大大增加在应用场景的使用,用户不需要等 待太长时间,同时又不需要太多算力。 这个模型的参数只有7B,有用户测试在16GB的M2就可以完成测试。 AI模型的端到端离线,是用户的刚需 相较于其他模型,这个7B的模型也支持离线,保证了数据隐私和安全,并且这个模型支持高分别率图像理解,并且还能够支持图像与文本之间的关系, 以及前面介绍的视频理解。 并且模型是最合适在MR与AR眼镜上,并且 ...