Workflow
我们距离真正的具身智能大模型还有多远?
特斯拉特斯拉(US:TSLA)2025-08-13 22:56

行业与公司 - 行业涉及人形机器人产业链,重点关注大模型端硬件端的发展[1] - 公司提及特斯拉作为硬件定型的核心推动者[3][4],以及国内企业如银河通用心动剂元青铜视觉凌云光天奇等[22][23][24] --- 核心观点与论据 1 大模型是行业发展的关键卡点 - 当前行业瓶颈在于模型端,尤其是多模态大模型的智能水平,而非硬件控制成熟度[1][2] - 大模型为人形机器人提供“智能大脑”,是推动本轮发展的底层逻辑[2] 2 大模型发展的三条主线 - 多模态输入:从C-CAN(仅语音)到RT1(动作+视频)、RT2(动作整合),再到Helix(200Hz频率)[5][6][11] - 频率提升:RT2(1-5Hz)→ 派林(50Hz)→ Helix(200Hz,超过人类反应速度)[6][10][11] - 泛化能力:通过增强推理能力(如PALM-E引入大模型分析)实现任务迁移[6][9] 3 数据飞轮与硬件定型的关系 - 数据不足是模型停滞的主因,需真机数据形成闭环,但当前硬件未定型导致数据采集风险高[3][15] - 特斯拉的核心作用:硬件定型后,行业才能规模化采集真机数据,推动模型迭代[3][4][16] 4 模型架构演进 - 从分层模型(大脑与小脑分开训练)到端到端模型(联合训练,效果更优但难度大)[7][8] - 快慢脑架构(如Helix):快脑(80兆Transformer)+慢脑(7B BLM),数据回传实现200Hz高频动作[11][12] 5 数据采集的现状与挑战 - 数据类型:低质量互联网数据(预训练)、仿真数据(成本低但真实性不足)、真机数据(质量高但效率低)[13][14][15] - 动捕设备: - 光学动捕(亚毫米精度,成本高,如青铜视觉、凌云光)[19][23] - 惯性动捕(IMU,灵活低成本,如诺伊腾,特斯拉采购Xs为观察指标)[18][19] - 当前真机数据采集效率极低(每小时3-4条,单条成本超10元)[16] --- 其他重要内容 1 未来大模型方向 - 融入更多模态(语言、视觉、传感器等)[20] - 世界模型:用数学符号模拟物理规律,实现仿真数据≈真机数据(英伟达Cosmos目前效果不佳)[21] 2 国内企业布局 - 银河通用:全仿真数据路线,发布Grasp VLA模型(无序抓取高成功率)[22] - 心动剂元:ERA大模型采用双系统架构(快慢脑),早于Figure提出[22] - 天奇:工业数据采集代工+仿真数据训练[24] 3 投资标的建议 - 动捕设备:凌云光(光学动捕)、青铜视觉[23] - 摄像头:阿比[26] - 遥操作:当红科技、景业智能(工厂及协作场景刚需)[25][26] --- 关键数据引用 - 动作频率:RT2(1-5Hz)、派林(50Hz)、Helix(200Hz)[6][11] - 动捕成本:真机数据单条采集成本超10元,100台机器人日采8-10万条[16] - 光学动捕精度:亚毫米级[19]