Workflow
FastVLM
icon
搜索文档
苹果端侧AI两连发,模型体积减半、首字延迟降85倍,iPhone离线秒用
36氪· 2025-09-08 10:42
苹果在 Hugging Face上放大招了!这次直接甩出两条多模态主线:FastVLM主打「快」,字幕能做到秒回;MobileCLIP2主打「轻」,在 iPhone 上也能起飞。更妙的是,模型和Demo已经全开放,Safari网页就能体验。大模型,真·跑上手机了。 就在刚刚,苹果在Hugging Face上重磅开闸: 这一次不是零碎更新,而是FastVLM与MobileCLIP2两条多模态主线集中亮相。 一个主打「快」,把首字延迟压到竞品的1/85; 另一个突出「轻」,在保持与SigLIP相当精度的同时,体积减半。 打开摄像头实时字幕、离线识别翻译、相册语义搜索,这些场景都能体验。 更重要的是,模型和Demo都已经开放,科研、应用到落地一步到位。 实时字幕,不再卡顿的多模态 FastVLM为何这么快?因为它换上了苹果自研的FastViTHD编码器。 传统多模态模型要么牺牲分辨率,要么被成千上万的视觉token拖慢推理。 而FastViTHD通过动态缩放和混合设计,让模型既能看清高分辨率图像,又能保持极低的延迟。 FastVit 与 FastVitHD 的性能对比:绿色曲线整体更靠左上,代表在同等规模下既更快又 ...
苹果沉默一年,终于亮出AI底牌
虎嗅APP· 2025-09-05 21:56
以下文章来源于直面AI ,作者涯角 直面AI . 聚焦前沿科技,抢先看到未来。 本文来自微信公众号: 直面AI ,作者:涯角,编辑:胡润,原文标题:《当全世界向云端大模型狂 奔,苹果选择回归设备》,题图来自:AI生成 几天前,苹果在 HuggingFace 上全面开源了视觉语言模型 FastVLM 和 MobileCLIP2,再次在 AI 社 区掀起震动。 这两款模型的直观特征只有一个字:快。FastVLM 在部分任务上的响应速度比同类模型快出 85 倍,并且能在 iPhone 这样的个人设备上流畅运行。但这并非一次孤立的技术秀。 与 MobileCLIP2 等开源模型一道,FastVLM 构成了苹果"B 计划"的核心:端侧 AI 小模型战略。 苹果亮剑小模型 用最通俗的语言解释FastVLM。它是一个"看得懂图、读得懂话"的多模态模型,重点有2个,1个是 名字里的"Fast"——快;另一个则是"VLM"。 正如其名,FastVLM最引人注目的特点就是"快"。这种快并非简单的性能提升,而是数量级的飞 跃,使其能够在手机、电脑等个人设备上实现以往需要云端服务器才能完成的实时任务。 因此,其作为VLM (视觉语言 ...
苹果推出的视频识别模型:FastVLM,让AI有了眼睛
36氪· 2025-09-05 08:06
这个模型不仅还可以在原生手机客户端运行,还能够支持web浏览器,可以精准的识别现实物理世界的物品、字体、甚至是内容含义,让开发者可以快速 调用。 就在最近苹果更新了一个新的模型,叫做FastVLM,是开源的,还只有7B,显存占用不到10多个GB,这个模型在依靠阿里Qwen2-7B做出更深度的训练。 这个模型最大的突破就是识别视频流,在算法层面上,论文指出其准确度都是最高 这个模型的生成原理如下,通过将视频将一阵一阵的图像进行处理,并且通过提取每一帧图像的特征再来汇总最后在第五步的时候将特征汇总,然后再通 过文本向量数据库将其结果与其匹配。 相较于其他AI产品经理,这个视觉生成模型最好的是提供了视觉一体化的方案,并且由于更低的延迟,可以大大增加在应用场景的使用,用户不需要等 待太长时间,同时又不需要太多算力。 这个模型的参数只有7B,有用户测试在16GB的M2就可以完成测试。 AI模型的端到端离线,是用户的刚需 相较于其他模型,这个7B的模型也支持离线,保证了数据隐私和安全,并且这个模型支持高分别率图像理解,并且还能够支持图像与文本之间的关系, 以及前面介绍的视频理解。 并且模型是最合适在MR与AR眼镜上,并且 ...
苹果沉默一年,终于亮出AI底牌
虎嗅· 2025-09-04 22:21
苹果开源视觉语言模型FastVLM和MobileCLIP2 - 苹果在HuggingFace上全面开源视觉语言模型FastVLM和MobileCLIP2 构成端侧AI小模型战略核心 [1][3] - FastVLM在部分任务响应速度比同类模型LLaVA-OneVision-0.5B快85倍 视觉编码器规模缩小3.4倍 [2][6] - FastVLM-7B版本与Cambrian-1-8B对比时性能更优 生成首个token响应速度快7.9倍 [6] 技术架构与性能表现 - 采用新型混合视觉编码器FastViTHD 结合卷积网络和Transformer 输出更少但更精华的tokens [7][9] - 支持高分辨率图像快速编码 在iPhone等个人设备实现实时任务处理 [5][14] - 提供0.5B/1.5B/7B多个版本 实测单帧画面分析时间仅1-2秒 8帧解读在几秒内完成 [13][17] 端侧AI战略定位 - 苹果通过小模型战略强化隐私保护 数据处理完全在设备端完成 避免云端传输敏感信息 [43][49] - 端侧AI保障用户体验可靠性 摆脱网络依赖 在无信号环境下保持核心智能功能在线 [50] - 利用A系列/M系列芯片边际性能 将计算任务分配至本地设备 形成经济可持续的商业模式 [51][53] 行业背景与战略布局 - 苹果面对AI竞争压力 内部组建AKI团队瞄准ChatGPT 同时推进端侧小矩阵模型开发 [40][41] - 2024年7月发布DCLM-7B开源模型 性能逼近Mistral-7B/Llama3等同级模型 [41] - WWDC 2024宣布Apple Intelligence由多专业小模型组成 处理邮件整理/文稿润色等日常任务 [41] 行业趋势与差异化路径 - 英伟达等企业重视小模型作为Agent未来 初创公司聚焦医疗/金融等垂直领域微调应用 [54] - 苹果端侧战略与其硬件生态/隐私承诺深度绑定 区别于行业主流云端大模型路径 [43][56] - 行业普遍追求参数规模时 苹果通过专才型小模型在细分场景实现更精准性能表现 [50]
苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?
机器之心· 2025-09-02 17:33
机器之心报道 编辑:Panda 在这场以大型语言模型(LLM)为核心的 AI 浪潮中,苹果似乎一直保持着低调,很少出现在技术报道的前沿。尽管如此,时不时地,该公司也能拿出一些非常亮 眼的研究成果,比如能在 iPhone 上直接运行的高效视觉语言模型 FastVLM 。 近日,苹果与牛津大学和香港城市大学合作的一项新研究吸引了不少关注。其中提出了一种名为 BED-LLM 的新方法,能让 AI 解决问题的能力直接提升 6.5 倍 (成功率从 14% 暴增至 91%),而整个过程无需微调或重新训练,直接在当前模型上运行即可。 而实现这一突破的关键,便是 让 AI 学会问出完美的问题 。 那么,究竟该如何做到这一点呢? 论文标题:BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design 论文地址:https://arxiv.org/abs/2508.21184 这要从 LLM 的一个不足之处说起,即难以智能且自适应的方式主动从用户或外部环境中获取信息。这就像是 LLM 的「多轮遗忘症」。 具体而言,虽然现 ...
苹果FastVLM视觉语言模型开放试用:视频字幕生成速度可提升85倍
环球网资讯· 2025-09-02 12:07
公司技术发布 - 苹果发布视觉语言模型FastVLM 并已在Hugging Face平台开放访问 [1] - 模型提供近乎即时的高分辨率图像处理能力 [2] - 视频字幕生成速度提高85倍 [2] - 模型体积比同类产品小3倍以上 [2] 技术性能表现 - 用户可在浏览器内加载轻量级FastVLM-0.5B版本 [2] - 在16GB M2 Pro MacBook Pro设备上加载耗时数分钟 [2] - 加载完成后可准确识别用户外貌 房间环境及周边物体 [2] 技术应用优势 - 模型在浏览器本地运行确保数据不离开设备 [2] - 支持完全离线运行模式 [2] - 轻便性与低延迟特性特别适合可穿戴设备应用场景 [2] - 在辅助技术领域展现显著应用潜力 [2]
AI周观察:英伟达沙特交易驱动风险偏好提升,端侧AI加速渗透
国金证券· 2025-05-18 22:39
报告行业投资评级 未提及 报告的核心观点 本周全球聊天助手应用活跃度上升,模型方面有新进展;英伟达应对出口限制,与沙特合作股价上行;CoreWeave营收超预期但亏损扩大;2025年一季度全球智能手机和AI笔电销量增长,看好AI手机和AI PC未来销量 [2] 各目录总结 海外市场行情回顾 - 截至5月9日,戴尔、Cloudflare、特斯拉等海外AI相关个股本周收盘价较上周均有不同程度上涨,涨幅在1.12%-19.06%之间 [6] 国内AI应用访问量回升,AI Coding热度持续提升 - 本周海外聊天助手类应用活跃度多数上升,ChatGPT、Gemini等环比提升6%-8%,国内豆包、ChatGLM等提升约20% [2][10][11] - OpenAI发布云端AI编程智能体Codex,腾讯发布混元图像2.0模型,苹果推出视觉语言模型FastVLM [2][11] 英伟达:政策放松驱动股价上行,盈利预期仍待验证 - 2025年美国收紧对华高端AI芯片出口控制,英伟达推出降规版H20芯片,2025年积压中国订单达180亿美元 [2][12] - 美国撤销对沙特和阿联酋的先进AI芯片出口禁令,英伟达与沙特签署合作协议 [15] - 受沙特订单刺激,英伟达股价上行,但市场对FY2026盈利预期未上调,政策仍是核心定价变量 [16] CoreWeave FY25Q1:营收超预期,全年展望强劲但亏损扩大 - CoreWeave 2025年Q1营收9.82亿美元,同比增长420%,净亏损扩大至3.15亿美元 [19] - 管理层预计Q2营收10.6-11亿美元,全年营收上调至49-51亿美元,2025年资本开支预算200-230亿美元 [22] - OpenAI与公司签订最高达119亿美元合作协议,报告期末收入积压总额259亿美元,同比增长63% [22] 消费电子动态 2025年一季度全球智能手机市场销量同比低增速上升 - 2025年一季度全球智能手机销量约3.01亿台,同比增长0.38%,实现端侧AI部署的手机销量约8200万台,同比增长约89% [2][23] - 实现端侧AI部署的手机中,苹果、三星、小米、vivo、OPPO销量排名前五 [23] - 中高端手机平均内存容量自2023年第一季度不断提升,看好AI手机销量增长 [34] AI PC继续渗透 - 2025年一季度全球AI笔电出货量约1800万台,同比增长约201%,渗透率达40.74% [2][35] - AMD与英特尔控制约62%的AI PC市场份额,苹果与高通的ARM架构AI PC占据约38%的市场份额 [37] - 因Windows系统切换和PC设备换机周期,预计AI PC销量将继续增长 [40]
85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型
机器之心· 2025-05-17 00:31
苹果开源FastVLM模型 - 苹果开源高效视觉语言模型FastVLM,可在iPhone上直接运行,优化苹果设备性能[2][3] - 模型推出0.5B、1.5B、7B三个参数量级版本,提供stage2和stage3两阶段微调权重[7] - 代码仓库包含基于MLX框架的iOS/macOS演示应用,提升用户体验[3] FastVLM技术优势 - 首个token输出速度比同类模型提升85倍,视觉token数量比传统ViT少16倍[6] - 采用新型混合视觉编码器FastViTHD,融合卷积层和Transformer模块[6] - 多尺度池化和下采样技术显著降低图片处理所需视觉token数量[6] 模型架构创新 - FastViTHD专为高分辨率视觉语言处理设计,参数量比ViT-L/14小2.4倍,速度快6.9倍[37] - 架构包含五个阶段,前三阶段使用RepMixer模块,后两阶段采用多头自注意力[36] - 支持静态与动态输入分辨率策略,在目标分辨率下实现最佳精度-延迟平衡[49] 性能表现 - 在38项多模态零样本任务中表现与ViT-L/14相当,推理速度快5.6倍[37] - 相同0.5B LLM条件下性能媲美LLaVa-OneVision,TTFT快85倍[16] - 参数量仅为ConvNeXT-XXL的1/6.8,速度提升3.3倍[42] 应用场景 - 兼容主流LLM并适配iOS/Mac生态,适合边缘设备和端侧AI应用[6] - 支持图像自动生成陈述、问答、数据分析和对象识别等功能[6] - 优化实时图文任务场景,显著提升AI与图像交互体验[6]
iOS 19还没来,我提前在iPhone上体验到了苹果最新的AI
虎嗅· 2025-05-15 20:04
苹果FastVLM模型发布 - 苹果低调开源视觉语言模型FastVLM 包含0.5B 1.5B和7B三种参数量级 支持iPhone iPad Mac等设备本地运行[3][10] - 模型启动速度极快 1.5B版本TTFT仅1211毫秒 0.5B版本TTFT可维持在1000ms以内 交互体验流畅[6][13][14][40] - 模型基于自研AI框架MLX和视觉编码网络FastViT-HD构建 采用卷积与Transformer融合架构 比同类模型推理速度快2-3倍[45][46][47][49] 技术架构创新 - FastViT-HD通过多尺度特征融合减少视觉token数量 在256×256分辨率下仅输出16个token 显著降低计算负担[52][53] - 引入帕累托最优曲线 帮助开发者找到性能与延迟最优组合 适合不同算力终端设备部署[55][56] - 训练数据仅为其他方法1/3~1/5情况下 在TextVQA等基准测试中效果堪比主流模型[57][58] 应用场景与战略布局 - 模型可能部署于苹果计划2027年推出的智能眼镜 配合专用低功耗芯片N401实现AI-first设备[59][60][61][62] - 体现苹果"端侧优先"战略 目标将AI嵌入系统底层而非作为功能补丁 覆盖iPhone iPad Mac及未来新硬件[63][64][65][66] - 模型开放性设计可被系统原生组件 第三方App及未来智能眼镜系统一键调取[70] 行业对比与生态建设 - 功能类似OPPO"一键问屏"和字节Seed1.5-VL 但底层依托自研MLX框架 补齐苹果芯片AI编程生态[72][73][74][75] - MLX框架类似PyTorch 优化内存管理与运行效率 鼓励开发者在MacBook上训练部署模型[76] - 通过FastVLM等模型布局 苹果正为未来5-10年硬件形态铺路 推动AI成为系统和设备原生部分[79][80][81]
OpenAI推出医疗开源测试基准HealthBench;苹果发布可在iPhone上运行的极速视觉语言模型FastVLM | 全球科技早参
每日经济新闻· 2025-05-13 07:53
OpenAI推出医疗开源测试基准HealthBench - OpenAI推出HealthBench开源基准测试,旨在衡量AI系统在医疗健康领域的能力 [2] - HealthBench由262位来自60个国家/地区的医生合作打造,包含5000段真实健康对话 [2] - 采用48562个独特的医生编写的评分标准进行开放式评估,涵盖紧急情况、全球健康等多个健康背景和行为维度 [2] - 该基准测试有望为AI在医疗健康领域的能力评估提供更全面、准确且具实践意义的参考标准 [2] 苹果发布极速视觉语言模型FastVLM - 苹果发布专为高分辨率图像处理优化的视觉语言模型FastVLM,可在iPhone等移动设备上高效运行 [3] - FastVLM通过创新的FastViTHD视觉编码器,实现高达85倍的编码速度提升 [3] - 该模型为实时多模态AI应用铺平道路,展现苹果在AI技术领域的创新实力 [3] FDA宣布使用AI技术加速药品审批流程 - FDA宣布在所有中心引入AI技术,以缩短药品审批时间 [4] - 该决定基于一项针对科学审查员的生成性AI试点,AI工具可帮助科学家减少重复性工作 [4] - 使用AI后,科学审查任务时间从三天缩短至几分钟,显著提升审核效率 [4] 特斯拉推出AI代理提升客户服务 - 特斯拉推出专门用于处理客户沟通服务的AI代理,可检测沟通延迟和监测对话情绪 [5] - AI代理能自动将重要诉求上报管理层,已在十个试点地点推出 [5] - 客户在手机应用输入"Escalate"后,系统将在两周延迟后自动上报问题 [5] Gemini 2.5 Pro实现6小时视频理解 - 谷歌Gemini 2.5 Pro支持长达6小时的视频分析,拥有200万Token的超大上下文窗口 [6] - 该模型首次实现通过API直接解析YouTube链接,在VideoMME基准测试中准确率达84.7% [6] - Gemini 2.5 Pro现已通过Google AI Studio向开发者开放体验,标志着AI向视频驱动的多模态产品转型 [6][7]