VLA（视觉 - 语言 - 动作） - 财报，业绩电话会，研报，新闻

VLA（视觉 - 语言 - 动作）

搜索文档

36氪· 2025-08-28 15:13

公司商业化进展 - 机器人运动会获奖后公司400咨询电话被打爆比赛后第二周有十几家酒店客户组团参观公司[1][7] - 公司机器人已进入小规模化交付阶段与多家酒店集团物业公司与养老社区签订订单[1] - 公司采用边量产出货边采集数据的商业策略通过实际场景铺量实现数据飞轮迭代[3][12] 技术路径选择 - 公司未选择主流的VLA端到端路线因当前行业缺乏海量机器人数据[2][18] - 采用感知操作解耦模型UniFlex 基于关键点模仿学习技术通过5-10次数据采集即可学会新任务[16][17] - 开发UniTouch视触觉融合系统但未安装实体高精度触觉传感器因单个手指需增加6000-8000元成本且耐用性不足[20][21] 产品性能特点 - Wanda二代机为量产版本定价8.8万元采用自研关节方案实现可观毛利[24] - Wanda三代机配备全向四驱底盘移动速度更快且负载更高但尚未正式发布[26][28] - 机器人可完成酒店清洁整理收垃圾铺床及打扫洗手间等复杂任务[9][12] 数据战略 - 通过酒店等类C端场景采集自然分布数据强调数据多样性比质量更重要[13] - 目标部署数十万台机器人认为需达到自动驾驶行业相近数量级才能训练优质模型[13] - 酒店场景数据回传不受工业保密限制且容错率高利于机器人持续作业[10][11] 硬件开发策略 - 坚持全栈自研硬件首要考虑硬件稳定性上半年重点攻克供应链稳定性和生产品控[23][25] - 自研硬件可避免技术黑盒问题成本更可控并保障多代机型数据一致性[24] - 机器人底盘针对75-80厘米常规门宽设计比赛遇到1米宽门时通过VR设备紧急重训技能[16] 应用场景规划 - 聚焦酒店清洁类C端场景该场景技能可迁移至家庭养老院餐厅快餐店及咖啡厅等场景[9] - 清洁场景相对容错率高允许机器人关门独立作业减少人机交互隐患[1][11] - 迎宾项目需处理机器人前进方向与拖拽行李车方向的非直线运动等硬件难题[7]

机器人能跑能跳能搏击，为何仍陷“成长烦恼”？

第一财经· 2025-08-12 22:38

文章核心观点 - 文章指出，2025年世界机器人大会展现了人形机器人行业的繁荣表象，但产业仍面临成本、数据、技术路线等多重根本性挑战，特别是在“大脑”（智能）层面的技术路线尚未收敛，数据格局也未清晰，整个行业仍处于早期发展阶段 [3][6][7][11][12][16] 市场现状与增长态势 - 在政策引导下，中国人形机器人行业通过“应用验证—技术突破”双向循环加速发展，市场呈现强劲增长 2024年商用销售出货量约为2000台，预计到2030年将达近6万台，复合年增长率达95.3% [6] - 尽管有厂商完成数百至上千台机器人的量产交付，但该数据与传统手机和汽车行业的量产概念仍有巨大差距，整个具身行业的商业模式仍非常早期 [6] 行业面临的挑战 - 产业面临“五座大山”：成本高昂、硬件一致性与良率不完善、数据存在规模与质量双缺口、软件与算法成熟度不达标、供应链与标准缺失 [7] - 数据采集成本高昂，真机数据采集成本由正转负问题亟待解决仿真引擎上手门槛高，需要平台化、集群化以提升能力 [7] - 机器人本体适配成本高昂，零部件缺乏统一标准系统层面，一台机器人上可能存在三台不同的主控，导致系统复杂低效 [7] - 行业机器人种类繁多，但对比几大终端产品数量仍非常少原因是每个场景都建立独立系统，这种硬件堆砌方式无法带来智能进化，形成了商业牢笼 [8] 技术路线与“大脑”议题 - 行业架构一般分为负责感知规划的“大脑”、负责运动控制的“小脑”以及负责执行任务的“本体”三层 [11] - 2025年WRC显示机器人灵活性增强，背后是“小脑”技术路线已基本达成一致与收敛但“大脑”层面，无论是可解释性还是技术收敛，都未达到理想效果 [11] - 具身智能的核心变化是由过去纯“小脑”+控制变成了“大脑”、“小脑”深度融合 “大脑”很关键，预计至少要到2026年大会才能看到基本框架 [11] - 技术路线在大方向上有所收敛，行业开始确定选择以数据驱动的Learning Base（机器学习算法）作为核心控制策略，并逐渐相信并选择端到端的VLA模型 [12] - 目前具身行业技术路线呈“三足鼎立”局面，包括端到端VLA、大小脑分层架构、世界模型路线，并以类脑路线和模仿-强化学习混合路线作为补充 [12] - 具身产业是系统工程，每条技术路线都有价值，核心看谁能将各点优势串联成更有用的系统当前限制性因素主要在于具身模型架构与数据闭环的迭代，而非芯片或算力 [13] - 有观点认为，具身大脑技术范式本身尚不成熟，且行业数据远远不够厂商可先将机器人做到四肢健全、在简单场景落地，再发力大脑端，是一条相对可实现的路径 [13] 数据问题与获取方式 - 数据是限制行业发展的关键要素之一对VLA架构的怀疑原因包括行业现存数据量不够，数据质量和数量都无法满足模型与真实世界交互的需求 [16] - 目前行业几乎都在做训练场采集数据，但存在数据是否有用的问题采集模式如遥操成本高，真人戴手套拆除采集速度快但数据通用性差 [16] - 不同厂商对数据看法不一有观点认为最直接的数据是遥控机器人干活的数据，但这部分数据面临产能不足且非常昂贵的现状 [16] - 对比自动驾驶领域头部车厂每天有百万台车在跑，单天回流上亿条真实数据具身领域目前最大的公开数据集仅100万条，数据缺口巨大 [16] - 数据获取成本高，看视频数据无法让机器人学会动作，但从真实世界采集真实动作数据又太贵 [16] - 为解决数据问题，有公司采用基于计算机图形学技术在虚拟空间复现物理规律，搭建大规模可交互物体资产库，通过合成管线生成动作数据，最终通过Sim2Real技术实现迁移，其中真实数据占比小于1% [17] - 数据来源可类比为金字塔架构：底端是规模大但缺乏动作信息的互联网视频数据；中层是存在Sim2Real Gap（仿真与现实差距）的仿真数据；顶端是真机数据 [17] - 大脑的模型架构若未定位清楚，数据的定位也不会清楚需要海量数据的架构不能仅靠现实数据采集，而小模型路线依靠纯现实数据就够用因此，大脑模型未定导致目前数据格局未清晰 [17]