行业与公司 - 行业:具身智能(Embodied AI)、人形机器人、机器人运动控制、多模态大模型 - 涉及公司: - 科技巨头:特斯拉(FSD、Optimus)、谷歌(RT、DeepMind)、英伟达(Grok01、仿真平台) - 国内厂商:Finger AI(Helix)、宇树、小鹏、银河通用、星海图智元优必选、深圳众擎 - 创业公司:Path、Pi(Pi 0.5混合架构) --- 核心观点与论据 1 具身智能模型架构分类与特点 - 完全端到端大模型: - 代表:特斯拉FSD、谷歌RT、英伟达Grok01 - 特点:需万亿级真实长流程任务数据,算力要求极高,适合数据资源丰富的大型科技公司[4][8][9] - 多模态融合大模型: - 代表:VLM(视觉-语言-图像)、VOA(视觉-图片-语言-动作) - 特点:集成文本、图像、动作信息,实现决策闭环[4] - 触觉传感器融合模型(VL-T): - 特点:加入压力、滑觉等触觉数据,提升操作精度[4] 2 数据的关键作用 - 数据量决定泛化能力:需覆盖所有可能任务场景(如特斯拉长流程数据)[5] - 多模态数据需求:包括动作、触觉等物理量数据,以支持实际操作[5] - 算力瓶颈:多模态数据处理对算力要求极高,限制高级系统开发[5] 3 企业挑战与解决方案 - 挑战:数据需求大(万亿级)、算法复杂度高、系统连接与解耦问题[6] - 分层端到端模型: - 代表:Finger AI的Helix(S1+2架构),合并认知与决策层,提升效率[7] - 混合架构(Pi 0.5):融合分层与端到端优势,解决系统通信问题[10] 4 运动控制算法进展 - 强化学习+仿真模拟: - 应用:宇树、小鹏与英伟达合作,通过合成数据训练,缩短学习周期(如跳舞动作从2个月缩短至1周)[15] - 国内水平:全球领先(宇树、银河通用等)[13][15] - 双手操作模型演进: - 从模仿学习→强化学习→仿真到真实迁移(1:1迁移效果)[16] 5 数据采集策略 - 特斯拉转变:从一人称远程操控→第三人称视频学习,结合仿真平台提升效率[18][19] - 国内现状:通过数据采集场(北京、上海等地)积累真实场景数据,类似特斯拉早期阶段[20] 6 全球发展格局 - 海外领先:谷歌DeepMind、英伟达、特斯拉、Path、Finger[21] - 国内跟进:头部厂商聚焦数据积累与模型训练,硬件发展快于“大脑”(智能系统)[22] --- 其他重要内容 - 工业机器人局限性:依赖预设算法,泛化能力弱[14] - 认知模块成熟度:大型语言/VLM基础模块已成熟(如物品识别、语音指令理解)[11] - 决策模块功能:拆解复杂任务为动作序列,强化学习提升开放环境适应性[12] - 投资关注点:具身智能“大脑”供应链(英伟达、谷歌等)是产业化核心瓶颈[22]
机器人的大脑:从LLM到世界模型