Workflow
苹果端侧AI两连发,模型体积减半、首字延迟降85倍,iPhone离线秒用
苹果苹果(US:AAPL) 36氪·2025-09-08 10:42

苹果在 Hugging Face上放大招了!这次直接甩出两条多模态主线:FastVLM主打「快」,字幕能做到秒回;MobileCLIP2主打「轻」,在 iPhone 上也能起飞。更妙的是,模型和Demo已经全开放,Safari网页就能体验。大模型,真·跑上手机了。 就在刚刚,苹果在Hugging Face上重磅开闸: 这一次不是零碎更新,而是FastVLM与MobileCLIP2两条多模态主线集中亮相。 一个主打「快」,把首字延迟压到竞品的1/85; 另一个突出「轻」,在保持与SigLIP相当精度的同时,体积减半。 打开摄像头实时字幕、离线识别翻译、相册语义搜索,这些场景都能体验。 更重要的是,模型和Demo都已经开放,科研、应用到落地一步到位。 实时字幕,不再卡顿的多模态 FastVLM为何这么快?因为它换上了苹果自研的FastViTHD编码器。 传统多模态模型要么牺牲分辨率,要么被成千上万的视觉token拖慢推理。 而FastViTHD通过动态缩放和混合设计,让模型既能看清高分辨率图像,又能保持极低的延迟。 FastVit 与 FastVitHD 的性能对比:绿色曲线整体更靠左上,代表在同等规模下既更快又 ...