Workflow
FastVLM
icon
搜索文档
AI周观察:英伟达沙特交易驱动风险偏好提升,端侧AI加速渗透
国金证券· 2025-05-18 22:39
报告行业投资评级 未提及 报告的核心观点 本周全球聊天助手应用活跃度上升,模型方面有新进展;英伟达应对出口限制,与沙特合作股价上行;CoreWeave营收超预期但亏损扩大;2025年一季度全球智能手机和AI笔电销量增长,看好AI手机和AI PC未来销量 [2] 各目录总结 海外市场行情回顾 - 截至5月9日,戴尔、Cloudflare、特斯拉等海外AI相关个股本周收盘价较上周均有不同程度上涨,涨幅在1.12%-19.06%之间 [6] 国内AI应用访问量回升,AI Coding热度持续提升 - 本周海外聊天助手类应用活跃度多数上升,ChatGPT、Gemini等环比提升6%-8%,国内豆包、ChatGLM等提升约20% [2][10][11] - OpenAI发布云端AI编程智能体Codex,腾讯发布混元图像2.0模型,苹果推出视觉语言模型FastVLM [2][11] 英伟达:政策放松驱动股价上行,盈利预期仍待验证 - 2025年美国收紧对华高端AI芯片出口控制,英伟达推出降规版H20芯片,2025年积压中国订单达180亿美元 [2][12] - 美国撤销对沙特和阿联酋的先进AI芯片出口禁令,英伟达与沙特签署合作协议 [15] - 受沙特订单刺激,英伟达股价上行,但市场对FY2026盈利预期未上调,政策仍是核心定价变量 [16] CoreWeave FY25Q1:营收超预期,全年展望强劲但亏损扩大 - CoreWeave 2025年Q1营收9.82亿美元,同比增长420%,净亏损扩大至3.15亿美元 [19] - 管理层预计Q2营收10.6-11亿美元,全年营收上调至49-51亿美元,2025年资本开支预算200-230亿美元 [22] - OpenAI与公司签订最高达119亿美元合作协议,报告期末收入积压总额259亿美元,同比增长63% [22] 消费电子动态 2025年一季度全球智能手机市场销量同比低增速上升 - 2025年一季度全球智能手机销量约3.01亿台,同比增长0.38%,实现端侧AI部署的手机销量约8200万台,同比增长约89% [2][23] - 实现端侧AI部署的手机中,苹果、三星、小米、vivo、OPPO销量排名前五 [23] - 中高端手机平均内存容量自2023年第一季度不断提升,看好AI手机销量增长 [34] AI PC继续渗透 - 2025年一季度全球AI笔电出货量约1800万台,同比增长约201%,渗透率达40.74% [2][35] - AMD与英特尔控制约62%的AI PC市场份额,苹果与高通的ARM架构AI PC占据约38%的市场份额 [37] - 因Windows系统切换和PC设备换机周期,预计AI PC销量将继续增长 [40]
85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型
机器之心· 2025-05-17 00:31
| 机器之心报道 | | --- | FastVLM—— 让苹果手机拥有极速视觉理解能力 当你用苹果手机随手拍图问 AI:「这是什么?」,背后的 FastVLM 模型正在默默解码。 最近,苹果开源了一个能在 iPhone 上直接运行的高效视觉语言模型 ——FastVLM(Fast Vision Language Model)。 代码链接: https://github.com/apple/ml-fastvlm 代码仓库中还包括一个基于 MLX 框架的 iOS/macOS 演示应用,优化了在苹果设备上的运行性能。 看这个 demo,反应速度是不是反应非常「Fast」!这就是 FastVLM 的独特之处。 相较于传统模型,FastVLM 模型专门注重于解决 体积、速度 这两大问题,速度快到相对同类模型, 首个 token 输出速度提升 85 倍 。 该模型引入了一种新型混合视觉编码器 FastViTHD ,融合了卷积层和 Transformer 模块,配合多尺度池化和下采样技术,把图片处理所需的「视觉 token」数量砍 到极低 —— 比传统 ViT 少 16 倍,比 FastViT 少 4 倍。它以卓越的速度和 ...
iOS 19还没来,我提前在iPhone上体验到了苹果最新的AI
虎嗅· 2025-05-15 20:04
苹果FastVLM模型发布 - 苹果低调开源视觉语言模型FastVLM 包含0.5B 1.5B和7B三种参数量级 支持iPhone iPad Mac等设备本地运行[3][10] - 模型启动速度极快 1.5B版本TTFT仅1211毫秒 0.5B版本TTFT可维持在1000ms以内 交互体验流畅[6][13][14][40] - 模型基于自研AI框架MLX和视觉编码网络FastViT-HD构建 采用卷积与Transformer融合架构 比同类模型推理速度快2-3倍[45][46][47][49] 技术架构创新 - FastViT-HD通过多尺度特征融合减少视觉token数量 在256×256分辨率下仅输出16个token 显著降低计算负担[52][53] - 引入帕累托最优曲线 帮助开发者找到性能与延迟最优组合 适合不同算力终端设备部署[55][56] - 训练数据仅为其他方法1/3~1/5情况下 在TextVQA等基准测试中效果堪比主流模型[57][58] 应用场景与战略布局 - 模型可能部署于苹果计划2027年推出的智能眼镜 配合专用低功耗芯片N401实现AI-first设备[59][60][61][62] - 体现苹果"端侧优先"战略 目标将AI嵌入系统底层而非作为功能补丁 覆盖iPhone iPad Mac及未来新硬件[63][64][65][66] - 模型开放性设计可被系统原生组件 第三方App及未来智能眼镜系统一键调取[70] 行业对比与生态建设 - 功能类似OPPO"一键问屏"和字节Seed1.5-VL 但底层依托自研MLX框架 补齐苹果芯片AI编程生态[72][73][74][75] - MLX框架类似PyTorch 优化内存管理与运行效率 鼓励开发者在MacBook上训练部署模型[76] - 通过FastVLM等模型布局 苹果正为未来5-10年硬件形态铺路 推动AI成为系统和设备原生部分[79][80][81]
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型;昆仑万维宣布开源Matrix-Game大模型丨AIGC日报
创业邦· 2025-05-14 07:52
昆仑万维开源Matrix-Game大模型 - 昆仑万维正式开源17B+参数的Matrix-Game大模型 该模型为Matrix-Zero世界模型中的可交互视频生成大模型 是工业界首个开源的10B+空间智能大模型 [1] - Matrix-Game专为开放式环境中的高质量生成与精确控制设计 面向游戏世界建模的交互式世界基础模型 [1] 百型智能推出外贸行业垂类Agent - 百型智能发布国内首个外贸行业垂类Agent AI外贸员Zoe 可独立完成外贸开发拓客全链路 包括市场分析、客户寻找、精准筛选、开发触达、转化跟进 [2] - Zoe的转化率高出传统人工方式10倍以上 [2] 火山引擎发布豆包视频生成模型 - 火山引擎发布豆包视频生成模型Seedance 1 0 lite 支持文生视频、图生视频 视频生成时长支持5s、10s 分辨率提供480P、720P [3] - 同时发布豆包1 5视觉深度思考模型 并升级豆包音乐模型 企业用户可在火山方舟平台使用API 个人用户可在豆包APP体验 [3] 苹果发布FastVLM模型 - 苹果发布FastVLM视觉语言模型 专为高分辨率图像处理优化 可在iPhone等移动设备上高效运行 [4] - FastVLM通过FastViTHD视觉编码器实现85倍编码速度提升 为实时多模态AI应用铺平道路 [4]
OpenAI推出医疗开源测试基准HealthBench;苹果发布可在iPhone上运行的极速视觉语言模型FastVLM | 全球科技早参
每日经济新闻· 2025-05-13 07:53
OpenAI推出医疗开源测试基准HealthBench - OpenAI推出HealthBench开源基准测试,旨在衡量AI系统在医疗健康领域的能力 [2] - HealthBench由262位来自60个国家/地区的医生合作打造,包含5000段真实健康对话 [2] - 采用48562个独特的医生编写的评分标准进行开放式评估,涵盖紧急情况、全球健康等多个健康背景和行为维度 [2] - 该基准测试有望为AI在医疗健康领域的能力评估提供更全面、准确且具实践意义的参考标准 [2] 苹果发布极速视觉语言模型FastVLM - 苹果发布专为高分辨率图像处理优化的视觉语言模型FastVLM,可在iPhone等移动设备上高效运行 [3] - FastVLM通过创新的FastViTHD视觉编码器,实现高达85倍的编码速度提升 [3] - 该模型为实时多模态AI应用铺平道路,展现苹果在AI技术领域的创新实力 [3] FDA宣布使用AI技术加速药品审批流程 - FDA宣布在所有中心引入AI技术,以缩短药品审批时间 [4] - 该决定基于一项针对科学审查员的生成性AI试点,AI工具可帮助科学家减少重复性工作 [4] - 使用AI后,科学审查任务时间从三天缩短至几分钟,显著提升审核效率 [4] 特斯拉推出AI代理提升客户服务 - 特斯拉推出专门用于处理客户沟通服务的AI代理,可检测沟通延迟和监测对话情绪 [5] - AI代理能自动将重要诉求上报管理层,已在十个试点地点推出 [5] - 客户在手机应用输入"Escalate"后,系统将在两周延迟后自动上报问题 [5] Gemini 2.5 Pro实现6小时视频理解 - 谷歌Gemini 2.5 Pro支持长达6小时的视频分析,拥有200万Token的超大上下文窗口 [6] - 该模型首次实现通过API直接解析YouTube链接,在VideoMME基准测试中准确率达84.7% [6] - Gemini 2.5 Pro现已通过Google AI Studio向开发者开放体验,标志着AI向视频驱动的多模态产品转型 [6][7]
腾讯研究院AI速递 20250513
腾讯研究院· 2025-05-12 22:46
Transformer八子之一 初创 Sakana AI 提出 「连续思维机器」 - CTM将神经元活动同步作为核心机制,通过时序信息实现更复杂的神经行为,推理过程更像人类思维 [1] - 神经元可访问自身历史并学习利用这些信息计算下一输出,所有行为均为自然涌现,未被预先设计 [1] - CTM在迷宫求解和图像识别等任务中展现出类人思维过程,思考时间越长准确率越高,且可根据任务难度调整思考时长 [1] 苹果发布 FastVLM, iPhone 直接运行的极速视觉语言模型 - 苹果发布移动端视觉语言模型FastVLM,采用双阶段处理(图像转token、token生成语言),可直接部署在iPhone等设备上运行 [2] - FastVLM在效率方面表现突出,0.5B版本较LLaVA首token输出快85倍,体积减少3.4倍;7B版本配合Qwen2较Cambrian模型快7.9倍 [2] - FastVLM具有高效处理高分辨率图像的能力,结合轻量级设计,显示出在智能眼镜等移动设备上的应用潜力 [2] 腾讯混元T1-Vision上线元宝:融合多模态原生长思维链 - 腾讯元宝升级视觉模型Hunyuan T1-Vision,能深度理解图片内容,支持多模态原生长思维链,完答速度提升1.5倍 [3] - 应用场景广泛,可识别植物品种、分析棋局、翻译游戏界面、进行选择分析、评估商品价值等实际场景 [3] - 新版本强调"边看图边思考"的能力,通过开启"深度思考T1"模式,可以更精确地捕捉和分析图片中的关键信息 [3] Perplexity 的Comet AI 浏览器开始内测,将在 5 月中旬发布 - 知名AI搜索工具Perplexity推出基于Chromium框架的AI浏览器Comet,预计5月中旬发布,目前开放内测申请 [4] - Comet具备AI Agent能力,能自动执行复杂任务,集成Perplexity的分析工具,简化用户工作流程 [5] - 继Arc推出Dia后,AI浏览器正成为新趋势,并显示出AI与操作系统、跨平台助手深度融合的发展方向 [5] 快手推出AI作图工具Poify,专注于 电商领域,目前免费 - 快手推出专注电商领域的AI作图工具Poify,集成多种功能如文生图、AI模特试衣、背景替换等,目前免费使用 [6] - Poify针对电商场景优化,可降低商品拍摄成本,提高制图效率,增强视觉吸引力,并适配各大电商平台规则 [6] - 相比同类工具,Poify专注电商图像创作,提供简单易用的界面和针对性功能,适合商家快速制作商品展示和营销素材 [6] 字节开源8B代码模型Seed-Coder, 自己筛数据训练自己 - 字节团队开源8B参数代码模型Seed-Coder,采用"LLM教LLM"方式筛选训练数据,构建了支持89种编程语言的6万亿token高质量代码库 [7] - 模型采用Llama 3架构,通过仓库级代码拼接支持32K长度,使用填空训练法和长思维链强化学习提升代码生成能力 [7] - Seed-Coder在HumanEval+等测试中超越70B级模型,在Codeforces达到接近人类铜奖水平,但在通用能力和数学能力方面仍有提升空间 [7] 逆向工程八出各大 AI 的隐藏人设,可能比你想象得还离谱 - 通过逆向工程获取的主流AI系统提示词揭示不同产品定位:GPT-4o注重专业理性,Grok-3强调全能助手,Gemini重视活力友好,DeepSeek追求简洁务实 [8] - 系统提示词作为AI的"行为说明书",决定了模型的边界、禁区和行为逻辑,其泄露可能导致用户更容易绕过限制或理解模型工作方式 [8] - 系统提示词对AI产品体验影响重大,未来可能发展出让用户自定义提示词的功能,但需要在自由度和安全性之间找到平衡 [8] 18岁高中生独著发顶刊 ,利用AI竟发现上百万个隐藏天体 - 18岁高中生Matteo Paz利用AI处理NASA的2000亿条NEOWISE数据,发现150万个未知天体,独著发表天文学顶刊论文,获得Regeneron科学竞赛25万美元奖金 [10] - 他创新开发VARnet模型,能快速识别天体时间序列数据中的变异性,处理速度达53微秒/天体,在变星识别任务中取得0.91的F1分数 [10] - 研究成果形成首个完整红外变异性巡天项目VarWISE,有望助力探索宇宙起源之谜,Paz已获斯坦福大学录取 [10] Agent 产品如何定价?一文说清 AI 产品的四种付费模式 - AI产品正从按量计费向更高级的付费模式演进:按工作流收费、按结果收费、按智能体收费,最终目标是将定价与客户价值对齐 [11] - AI应用最适合切入那些依赖BPO(业务流程外包)和低薪工作的领域,而非高薪工作,因为后者竞争激烈且用户更倾向于将AI作为辅助工具 [11] - Paid公司为解决AI产品定价难题应运而生,提供完整的账单、发票、变现、定价等后台运营系统,帮助AI公司避免陷入低水平的按量计费竞争 [11] a16z:Git 将被取代,AI 时代的 9 种全新软件开发模式 - a16z预测未来软件开发将围绕AI Agent重塑,核心变化包括意图驱动的版本控制取代Git、AI驱动的动态仪表盘、交互式文档系统等9大趋势 [12] - 开发方式从"自底向上"转向"自顶向上",开发者通过描述意图让AI Agent寻找合适构建块,并趋向异步协作模式,AI Agent在后台独立执行任务 [12] - MCP(模型上下文协议)有望成为AI Agent能力的通用标准,让各类工具和服务能被AI Agent直接调用,同时AI Agent仍需依赖认证、计费等基础设施服务 [12]