视觉语言动作模型
搜索文档
理想VLM/VLA盲区减速差异
理想TOP2· 2025-10-18 16:44
技术架构差异 - VLM采用外挂式架构,作为视觉语言动作模型向端到端模型输出减速等指令,例如在盲区场景下输出8-12km/h的减速需求 [1][2] - VLA采用原生集成架构,其基座模型直接理解视频输入并综合判断道路场景、宽度和流量等因素后输出动作 [2] - VLM方案因指令式交互导致驾驶体感存在割裂感和规则感,所有路口减速至统一范围而缺乏场景差异化 [2] 性能表现对比 - VLA方案输出的盲区减速档位更连续且接近非离散状态,不同道路盲区减速的G值差异显著,更匹配实际交通流场景 [2] - VLM方案因依赖代码触发机制,其作用层级和稳定性存在不确定性,完全采信有风险而部分采信效果可能偏弱 [3] 模型能力基础 - VLM基于Qwen等基座模型,通过特定场景视频和图像训练以获得对丁字路口等场景的理解能力 [1] - VLA使用自研基座模型构建盲区类场景的理解工作流,直接进行综合判断并输出动作 [2]
机器人感知大升级!轻量化注入几何先验,成功率提升31%
量子位· 2025-09-28 19:54
技术方案核心 - 提出一种名为Evo-0的轻量化方法,旨在增强视觉语言动作模型的三维空间理解能力,无需依赖显式深度输入或额外传感器[4] - 该方法利用视觉几何基础模型从多视角RGB图像中隐式提取三维结构信息,并将其融合到原有视觉语言模型中[4] - 通过一个交叉注意力融合模块,将二维视觉标记作为查询,三维几何标记作为键/值,实现二维与三维表征的融合[6] 性能表现 - 在RLBench仿真实验中,Evo-0在5个需要精细操作的任务上,平均成功率超过基线pi0模型15%,超过openvla-oft模型31%[5] - 在真实机器人操作任务中,Evo-0在全部5个任务上均超越基线模型pi0,平均成功率提升28.88%,达到57.41%[12][13] - 在训练效率方面,仅用15,000步训练的Evo-0模型性能已超过用20,000步训练的pi0模型[8] 鲁棒性评估 - 在五类干扰条件下的鲁棒性评估中,Evo-0表现出优于基准模型的稳定性[14] - 在存在未见过的干扰物体时,Evo-0的抓取正确率达到100%,整体正确率为70%,显著高于基准的60%和20%[15] - 在背景颜色变化、目标位置/高度变化以及相机视角变化等多种干扰条件下,Evo-0的性能均优于或等于基准模型[15] 行业意义 - 该方法通过绕过深度估计误差与传感器需求,以插件形式增强视觉语言动作模型的空间建模能力[18] - 该技术方案具有训练高效和部署灵活的特点,为通用机器人策略的发展提供了新的可行路径[18]
人形机器人,更快更高更强
人民日报· 2025-09-01 09:03
行业销量与增长 - 今年人形机器人销量有望突破1万台 同比增长125% [1] - 产业正进入规模化落地阶段 已在工业制造 零售配送 餐饮服务等领域试点投入 [1] 政策支持与产业布局 - 具身智能首次写入政府工作报告 国务院提出培育智能原生新模式新业态 [3] - 北京设立总规模1000亿元政府投资基金 上海目标2027年具身智能核心产业规模突破500亿元 [3] - 杭州将人形机器人整机 软件算法及关键零部件列入重点科研项目支持范围 [3] 成本趋势与规模化路径 - 新一代关节模组价格从上千元降至百元区间 整机成本预计进一步下降 [4] - 规模化应用遵循工业先于物流 商用先于家用的路径 [4] 技术创新与硬件发展 - 硬件创新涵盖关节执行器 传感器等核心部件 技术路线趋向标准化 [3] - 谐波减速器 高功率密度电机 传感器发展提升关节模块和灵巧手设计水平 [7] - 高性能一体化力控关节支持叠衣服 取饮料等精细操作 [8] 算法与数据驱动 - 大模型发展推动运动能力 感知能力及智能水平快速突破 [7] - 视觉语言动作模型助力打造端到端决策系统 [7] - 高质量真实数据积累提升机器人场景应用能力 [8] 通信与定位技术支持 - 卫星导航定位 5G通信等技术支撑人形机器人发展 [8] - 时空算力背包提供北斗动态厘米级定位和多模型协同推理能力 [8] - 5G-A网络峰值达2.4Gbps 支撑环境交互 实时决策 精准定位等需求 [9] 产品性能与自主能力 - 优必选Walker S2拥有52个自由度 可稳定搬运15公斤负载并完成自主换电 [9] - 全自主模式需完成感知-决策-执行闭环 应对突发状况 [11] - 工业人形机器人实训效率达人类水平30%-40% [11] 应用场景拓展 - 工业场景已投入超过100台机器人实训 [11] - 家庭场景可提供健康管理 远程关爱等功能 [11] - 未来将在生产 服务领域扮演重要角色 实现人机协作与融合 [12]
元戎启行VLA模型三季度要量产,能否冲破市场+技术壁垒?
南方都市报· 2025-06-13 23:04
公司动态 - 元戎启行宣布VLA模型将于2025年第三季度推向消费者市场 并预计在年内上车五款车型 [1] - VLA模型具备四大"超能力":盲区破解 异形障碍物识别 路标解析 语音控车 [1] - 公司总部位于深圳 自2018年成立以来专注于自动驾驶和车联网技术 [3] - 2024年第四季度公司在城区高阶智能辅助驾驶供应商市场占据超15%份额 [6] - 2024年11月完成C1轮融资 获得一亿美元资金 [8] 技术突破 - VLA模型是视觉语言动作模型 具备全程可求导特性 解决传统智能驾驶的"黑盒问题" [3] - 模型能将推理过程清晰展示给用户 增强系统可解释性 [4] - 在复杂城市道路中能精准解读潮汐车道 可变车道等复杂规则 [6] - 通过技术优化在100TOPS算力的骁龙SA8650平台上实现复杂场景运行 降低成本 [7] 市场挑战 - 行业已进入激烈竞争阶段 需要突破华为 地平线 Momenta等品牌的包围 [8] - 近期辅助驾驶事故频发 消费者对产品可靠性要求更高 品牌依赖度提升 [8] - 100TOPS算力是否足以应对所有复杂城市路况尚未经过大规模验证 [8] - 自动驾驶行业融资环境降温 公司面临资金压力 [8] - 从L4降维至L2赛道 转向量产导向的硬件压缩 属于"轻量化突围"策略 [9] 行业趋势 - 车企愈发看重系统稳定性和成本 可能导致企业降价竞争 利润空间压缩 [9] - 长期投入的底层技术创新面临资金断流风险 可能影响后续技术优化升级 [9]