Workflow
巨生智能大模型
icon
搜索文档
机器人大模型深度:我们距离真正的具身智能大模型还有多远?
2025-08-12 23:05
行业与公司 - 行业:人形机器人、巨生智能大模型、遥操技术、动作捕捉设备[1][2][3][4] - 公司:特斯拉(硬件定型关键)、凌云光(动补设备)、奥维中光(摄像头)、当红科技(遥操技术)、景业智能(遥操技术)、银河通用(全仿线模型)、心动纪元(双系统架构模型)、智源(VRLA架构)、诺依腾(惯性动补)、青铜视觉(光学动补)[4][18][20][22] 核心观点与论据 巨生智能大模型发展 - **数据飞轮机制**:需足够多机器人应用收集数据,特斯拉硬件定型是关键,硬件定型后企业才敢投入数据中心建设[1][3] - **发展主线**:多模态(输入端信息丰富度增加)、动作频率(如Helix达200赫兹)、泛化能力(推理能力增强)[1][6] - **模型架构共识**:分层快慢脑VLA架构为标准框架,当前重点为数据训练(预训练低质量数据+后训练高质量真机数据)[14] - **发展阶段**:人形机器人处于L2阶段(类比自动驾驶),需硬件定型后转动数据飞轮[5] 模型对比与演进 - **CCAN**:分层结构,仅语言指令,泛化性弱[7][8] - **RT one**:端到端结构,新增图像信息,训练难度高但效果更好[7][9] - **Palm 一**:提升推理能力,模型体量大但模态不足[10] - **RT two**:融合动作信息与推理能力,动作频率仅1-5赫兹[11] - **Helix**:分层端到端架构(快脑80兆Transformer+慢脑7B VRM),动作频率达200赫兹[13] 数据采集挑战 - **真机数据**:质量最高但效率低(每小时每台仅3-4条有效数据,成本十几元/条),硬件未定型导致沉没成本风险[15] - **仿真数据**:成本低但存在"seem to real"差距,当前使用比例占90%(真机数据10%)[15][16] - **未来趋势**:结合仿真与真机数据,世界模型开发或使仿真数据成主流[16] 动作捕捉技术 - **光学捕捉**:高精度(影视/CG领域),成本数百万至上千万[17] - **惯性捕捉**:价格亲民(数万至十万),但受空间限制[17] - **领先企业**:凌云光、青铜视觉(国内光学);诺依腾(国内惯性);OptiTrack、Vicon(国外光学);Xsens(特斯拉供应商)[18] 遥操技术 - **核心需求**:视频/音频数据快速压缩回传+低延时解压缩,确保实时性[4][21] - **应用场景**:中期工厂长线程遥操(如墨西哥工人操作美国机器人),长期人机协作安全接管[21] 大模型发展方向 - **模态扩展**:融入触觉(灵巧手)、嗅觉、温湿觉等,现有VELA架构(视觉+语言+动作)[19] - **世界模型**:用数学符号表达物理规律,提升仿真精准度[19] 其他重要内容 - **政府支持**:北京/上海拨款支持动作捕捉技术,公开部分采集数据[18] - **标的推荐**:动补设备(凌云光)、摄像头(奥维中光)、遥操技术(当红科技、景业智能)为产业链核心关注点[22]