VLA(视觉语言动作模型)

搜索文档
拆解特斯拉机器人供应链:30 多位从业者看到的泡沫和希望
阿尔法工场研究院· 2025-06-08 21:36
核心观点 - 特斯拉人形机器人Optimus的研发带动了全球产业链投入超1000亿元,但当前量产仍面临高成本、低效率问题,硬件技术尚未突破瓶颈[2][25][30] - 行业出货量预计2024年仅2万台,单台成本6万美元,效率仅为人工20%-30%,远未达到替代蓝领工人的经济性[2][35][40] - 软件端采用VLA模型训练机器人,但数据采集成本高(单条10元),真机数据不足制约模型泛化能力[52][54] 技术路径 硬件设计 - 采用行星滚柱丝杠(单价超4000元/根)替代传统旋转关节,单腿承重达半吨,精度误差小于6微米[10][36] - 灵巧手复刻22个自由度,绳驱结构模拟肌肉组织,但耐用性差(3个月需更换),双手更换成本10万元[18][20][42] - 传感器方案包含六维力传感器(误差<0.2%)、电子皮肤(单指节100+力传感器),但感知精度仍落后人类[15][16][22] 软件系统 - 放弃波士顿动力的规则控制路线,转向VLA模型训练端到端动作,需1000万条真机数据(当前不足100万条)[45][52][54] - 数据采集依赖物理交互仿真,如开冰箱门需建模质量/摩擦力等参数,通过Real-to-Sim生成多场景训练数据[56] 产业链现状 供应商格局 - 核心部件由舍弗勒(滚柱丝杠)、哈默纳科(RV减速器)、ATI(六维传感器)等国际龙头主导[10][11][16] - 中国供应商如三花智控、拓普集团累计投入超50亿元,特斯拉提供技术图纸扶持代工厂[27][28] - 行星滚柱丝杠产能严重受限(月产仅300根),迫使特斯拉降低精度标准至C3级[36][37] 商业化进展 - 特斯拉2024年目标产量5600台,实际应用仅数十台用于搬运电池,效率不及工业机械臂[30][59] - 中国公司宇树/智元预计出货5000台,但主要场景转向车展模特、情绪价值产品[59][60] - 行业估值分化明显:具身智能公司Physical Intelligence成立15个月估值超20亿美元[57] 性能参数 - 第三代Optimus身高1.72米/重55公斤,50+自由度,双臂负载20公斤,续航5小时[30][34] - 行走速度8-10公里/小时,但60%概率1.5公里内摔倒,关节温度超70℃会降频[35][39] - 硬件成本中执行器占比55%,灵巧手复杂度超其余部件总和[6][18]