VLM模型

搜索文档
万字对谈 Physical Intelligence(π):具身智能的卡点和下一步突破,到底在哪?
Founder Park· 2025-07-25 21:38
具身智能技术进展 - 公司Physical Intelligence(π)由OpenAI和红杉资本领投,估值达20亿美元,已开源π0 VLM模型并展示机器人自动叠衣服案例[1] - 2023年发布π0模型展示复杂任务执行能力,2024年4月推出π0.5模型实现开放世界泛化能力,可在陌生家庭环境完成整理房间等任务[1][8][9] - 技术发展轨迹类似自动驾驶,预计将经历长期积累后突然实现突破性应用[14] 技术瓶颈与突破 - 当前主要瓶颈在于智能软件而非硬件,硬件早在十多年前就已"准备就绪"[17][19][20] - 三大技术难关:复杂任务能力(已突破)、环境泛化能力(已突破)、高可靠性性能(当前最大障碍)[6][8] - 模型在约100个多样化家庭环境训练后即可实现良好泛化,环境共性被低估[6][51] 技术实现路径 - 采用"大模型+大数据"模式,但需解决真实数据收集、硬件适配等复杂系统问题[23] - 创新性使用"知识绝缘"技术,将机器人动作标记化处理,训练速度提升10倍[44][45] - 利用图像修复技术解决推理延迟问题,实现动作预测与执行的同步[47] 行业认知与展望 - 通用机器人基础模型价值被严重低估,形态不重要而智能是关键[52][53] - 预计5年内实现家庭机器人普及,5-10年达到百万家庭应用规模[55] - 行业仍处早期阶段,开源策略有助于推动整体技术进步[60][61] 数据与评估挑战 - 机器人数据量巨大且持续增长,数据基础设施成为关键挑战[34][35] - 评估依赖真实世界测试,需大量重复运行和统计分析,操作繁重[40][41] - 采用新旧模型同步测试的相对评估方法,避免环境变量干扰[40]
何小鹏:大模型道路,大家都在摸着石头过河|36氪专访
36氪· 2025-06-12 19:29
小鹏G7与图灵AI芯片 - 小鹏G7搭载3颗自研图灵AI芯片,有效算力超2200Tops,超越行业主流方案(508Tops)3-28倍[1][3] - 公司定位G7为"首款具备L3级算力的AI汽车",预售价23.58万元起,打破此前蔚来ET9(2000Tops/78.8万元)的算力记录[1] - 图灵芯片团队需提前考虑未来8年技术路线变化以支撑5年安全期,面临内存带宽等挑战[6] 技术架构与模型部署 - G7 Ultra版本采用2颗图灵芯片运行VLA-OL模型(辅助驾驶)+1颗运行VLM模型(智能座舱),通过PCIe实现芯片间协同[3][10] - VLA模型新增"运动型大脑",配合强化学习训练使智驾能力上限比行业Max方案提升10+倍[4] - 本地化部署VLM(视觉-语言)与VLA(视觉-语言-动作)双模型,VLA模型帧率可达20-30帧/秒,显著提升安全时延[3][12] 行业对比与竞争格局 - 特斯拉FSD坚持端到端方案,规划下一代AI5芯片算力3000-7200Tops;国内理想等厂商已开始探索VLA方案[5][14] - 20-25万元纯电SUV市场将面临小米YU7、理想i6等竞品,G7通过SKU极简化+华为AR HUD+超长续航702km差异化竞争[6][16] - 行业L2高阶算力集中在500-700Tops(英伟达OrinX/ThorU),公司认为2000Tops是L3自动驾驶基础起点[11] 产品战略与迭代计划 - 芯片编译优化目标为1年半后实现"一颗顶四颗"效能,通过OTA每月新增功能,2024年内计划重大功能上线[7][8][9] - 产品线定位:G6(小康家庭)、G7(中产/年轻家庭)、G9(高端空悬车型),形成价格与技术梯度[16] - 当前未全系标配图灵芯片,G7 Max仍采用英伟达Orin X方案,未来将根据配置需求混合使用两种芯片[13]
巧妙!一个传统技术让国产视觉基础模型直接上大分
量子位· 2025-05-23 14:14
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 咱就是说啊, 视觉基础模型 这块儿,国产AI真就是上了个大分—— Glint-MVT ,来自格灵深瞳的最新成果。 先来看下成绩—— 线性探测 (LinearProbing): 简单来说,线性探测是一种测试预训练模型效果的小技巧,测的就是基本功扎不扎实。它的做法是: 把模型最后一部分换成简单的线性层,其他部分全部保持原样不动;然后只训练这个新加的线性层,通过它的表现来判断模型之前学到的特 征好不好用。 再来看应用效果。 如果说视觉基础模型是一个底座,那么它的下游任务,像 "图像理解+分割一切" ,便是更为直观的效果展现。 例如下面这张图片,然后我们可以问一下AI: 你能提供一个分割掩膜给这个图像中触摸篮球的人吗? 很显然,这个任务的难点在于拿篮球的人被其他人的手、身体等部位挡住,分割难度也大幅增加。 然而,国产AI是不在怕的,啪的一下,超精细地把要求的人物给抠了出来: 我们再来看下更加复杂的案例: 这个测试是在26个分类测试集中跟CLIP和OpenCLIP做了对比,结果显示,国产视觉基础模型平均准确率比OpenCLIP高2.3%,比CLIP高 1.1%。 面 ...
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型;昆仑万维宣布开源Matrix-Game大模型丨AIGC日报
创业邦· 2025-05-14 07:52
昆仑万维开源Matrix-Game大模型 - 昆仑万维正式开源17B+参数的Matrix-Game大模型 该模型为Matrix-Zero世界模型中的可交互视频生成大模型 是工业界首个开源的10B+空间智能大模型 [1] - Matrix-Game专为开放式环境中的高质量生成与精确控制设计 面向游戏世界建模的交互式世界基础模型 [1] 百型智能推出外贸行业垂类Agent - 百型智能发布国内首个外贸行业垂类Agent AI外贸员Zoe 可独立完成外贸开发拓客全链路 包括市场分析、客户寻找、精准筛选、开发触达、转化跟进 [2] - Zoe的转化率高出传统人工方式10倍以上 [2] 火山引擎发布豆包视频生成模型 - 火山引擎发布豆包视频生成模型Seedance 1 0 lite 支持文生视频、图生视频 视频生成时长支持5s、10s 分辨率提供480P、720P [3] - 同时发布豆包1 5视觉深度思考模型 并升级豆包音乐模型 企业用户可在火山方舟平台使用API 个人用户可在豆包APP体验 [3] 苹果发布FastVLM模型 - 苹果发布FastVLM视觉语言模型 专为高分辨率图像处理优化 可在iPhone等移动设备上高效运行 [4] - FastVLM通过FastViTHD视觉编码器实现85倍编码速度提升 为实时多模态AI应用铺平道路 [4]
130多天后再谈AI!李想透露实现VLA的三个阶段,回应“智驾”是否该叫停
每日经济新闻· 2025-05-08 10:01
每经记者|孙磊 每经实习编辑|余婷婷 "AI(人工智能)工具可划分为信息工具、辅助工具和生产工具三个层级。我觉得人工智能变成生产工具,才是真正人工智能爆发的时刻。"理想汽车董事 长、CEO李想在5月7日晚的《理想AI Talk第二季》中,分享了他对于人工智能的最新思考,VLA司机大模型的作用、训练方法和挑战,这距离他上一季谈 及人工智能已经过去了130多天。 李想表示:"判断Agent(智能体)是否真正智能,关键在于它是否成为生产工具。只有当人工智能变成生产工具,才是其真正爆发的时刻。就像人类会雇用 司机,人工智能技术最终也会承担类似职责,成为真正的生产工具。" 就理想汽车而言,其研发的VLA司机大模型则是以"司机Agent"的产品形态呈现。"用户可通过自然语言与司机Agent沟通,跟人类司机怎么说,就跟司机 Agent怎么说。简单通用的短指令由端侧的VLA直接处理,复杂指令则先由云端的VL基座模型解析,再交由VLA处理。"理想汽车方面表示。 此外,李想还回应了"有人觉得辅助驾驶应该被叫停"的问题。"经过多年,从规则算法到端到端+VLM(视觉语言),再到现在真正迈入VLA阶段,现在比 较像'黎明前的黑暗'。我 ...