视觉语言动作模型 - 财报，业绩电话会，研报，新闻

视觉语言动作模型

搜索文档

理想TOP2· 2025-10-18 16:44

技术架构差异 - VLM采用外挂式架构，作为视觉语言动作模型向端到端模型输出减速等指令，例如在盲区场景下输出8-12km/h的减速需求 [1][2] - VLA采用原生集成架构，其基座模型直接理解视频输入并综合判断道路场景、宽度和流量等因素后输出动作 [2] - VLM方案因指令式交互导致驾驶体感存在割裂感和规则感，所有路口减速至统一范围而缺乏场景差异化 [2] 性能表现对比 - VLA方案输出的盲区减速档位更连续且接近非离散状态，不同道路盲区减速的G值差异显著，更匹配实际交通流场景 [2] - VLM方案因依赖代码触发机制，其作用层级和稳定性存在不确定性，完全采信有风险而部分采信效果可能偏弱 [3] 模型能力基础 - VLM基于Qwen等基座模型，通过特定场景视频和图像训练以获得对丁字路口等场景的理解能力 [1] - VLA使用自研基座模型构建盲区类场景的理解工作流，直接进行综合判断并输出动作 [2]

机器人感知大升级！轻量化注入几何先验，成功率提升31%

量子位· 2025-09-28 19:54

技术方案核心 - 提出一种名为Evo-0的轻量化方法，旨在增强视觉语言动作模型的三维空间理解能力，无需依赖显式深度输入或额外传感器[4] - 该方法利用视觉几何基础模型从多视角RGB图像中隐式提取三维结构信息，并将其融合到原有视觉语言模型中[4] - 通过一个交叉注意力融合模块，将二维视觉标记作为查询，三维几何标记作为键/值，实现二维与三维表征的融合[6] 性能表现 - 在RLBench仿真实验中，Evo-0在5个需要精细操作的任务上，平均成功率超过基线pi0模型15%，超过openvla-oft模型31%[5] - 在真实机器人操作任务中，Evo-0在全部5个任务上均超越基线模型pi0，平均成功率提升28.88%，达到57.41%[12][13] - 在训练效率方面，仅用15,000步训练的Evo-0模型性能已超过用20,000步训练的pi0模型[8] 鲁棒性评估 - 在五类干扰条件下的鲁棒性评估中，Evo-0表现出优于基准模型的稳定性[14] - 在存在未见过的干扰物体时，Evo-0的抓取正确率达到100%，整体正确率为70%，显著高于基准的60%和20%[15] - 在背景颜色变化、目标位置/高度变化以及相机视角变化等多种干扰条件下，Evo-0的性能均优于或等于基准模型[15] 行业意义 - 该方法通过绕过深度估计误差与传感器需求，以插件形式增强视觉语言动作模型的空间建模能力[18] - 该技术方案具有训练高效和部署灵活的特点，为通用机器人策略的发展提供了新的可行路径[18]

人民日报· 2025-09-01 09:03

行业销量与增长 - 今年人形机器人销量有望突破1万台同比增长125% [1] - 产业正进入规模化落地阶段已在工业制造零售配送餐饮服务等领域试点投入 [1] 政策支持与产业布局 - 具身智能首次写入政府工作报告国务院提出培育智能原生新模式新业态 [3] - 北京设立总规模1000亿元政府投资基金上海目标2027年具身智能核心产业规模突破500亿元 [3] - 杭州将人形机器人整机软件算法及关键零部件列入重点科研项目支持范围 [3] 成本趋势与规模化路径 - 新一代关节模组价格从上千元降至百元区间整机成本预计进一步下降 [4] - 规模化应用遵循工业先于物流商用先于家用的路径 [4] 技术创新与硬件发展 - 硬件创新涵盖关节执行器传感器等核心部件技术路线趋向标准化 [3] - 谐波减速器高功率密度电机传感器发展提升关节模块和灵巧手设计水平 [7] - 高性能一体化力控关节支持叠衣服取饮料等精细操作 [8] 算法与数据驱动 - 大模型发展推动运动能力感知能力及智能水平快速突破 [7] - 视觉语言动作模型助力打造端到端决策系统 [7] - 高质量真实数据积累提升机器人场景应用能力 [8] 通信与定位技术支持 - 卫星导航定位 5G通信等技术支撑人形机器人发展 [8] - 时空算力背包提供北斗动态厘米级定位和多模型协同推理能力 [8] - 5G-A网络峰值达2.4Gbps 支撑环境交互实时决策精准定位等需求 [9] 产品性能与自主能力 - 优必选Walker S2拥有52个自由度可稳定搬运15公斤负载并完成自主换电 [9] - 全自主模式需完成感知-决策-执行闭环应对突发状况 [11] - 工业人形机器人实训效率达人类水平30%-40% [11] 应用场景拓展 - 工业场景已投入超过100台机器人实训 [11] - 家庭场景可提供健康管理远程关爱等功能 [11] - 未来将在生产服务领域扮演重要角色实现人机协作与融合 [12]

元戎启行VLA模型三季度要量产，能否冲破市场+技术壁垒？

南方都市报· 2025-06-13 23:04

公司动态 - 元戎启行宣布VLA模型将于2025年第三季度推向消费者市场并预计在年内上车五款车型 [1] - VLA模型具备四大"超能力"：盲区破解异形障碍物识别路标解析语音控车 [1] - 公司总部位于深圳自2018年成立以来专注于自动驾驶和车联网技术 [3] - 2024年第四季度公司在城区高阶智能辅助驾驶供应商市场占据超15%份额 [6] - 2024年11月完成C1轮融资获得一亿美元资金 [8] 技术突破 - VLA模型是视觉语言动作模型具备全程可求导特性解决传统智能驾驶的"黑盒问题" [3] - 模型能将推理过程清晰展示给用户增强系统可解释性 [4] - 在复杂城市道路中能精准解读潮汐车道可变车道等复杂规则 [6] - 通过技术优化在100TOPS算力的骁龙SA8650平台上实现复杂场景运行降低成本 [7] 市场挑战 - 行业已进入激烈竞争阶段需要突破华为地平线 Momenta等品牌的包围 [8] - 近期辅助驾驶事故频发消费者对产品可靠性要求更高品牌依赖度提升 [8] - 100TOPS算力是否足以应对所有复杂城市路况尚未经过大规模验证 [8] - 自动驾驶行业融资环境降温公司面临资金压力 [8] - 从L4降维至L2赛道转向量产导向的硬件压缩属于"轻量化突围"策略 [9] 行业趋势 - 车企愈发看重系统稳定性和成本可能导致企业降价竞争利润空间压缩 [9] - 长期投入的底层技术创新面临资金断流风险可能影响后续技术优化升级 [9]