完全端到端大模型

搜索文档
机器人的大脑:从LLM到世界模型
2025-08-11 22:06
**行业与公司** - **行业**:具身智能(Embodied AI)、人形机器人、机器人运动控制、多模态大模型 - **涉及公司**: - **科技巨头**:特斯拉(FSD、Optimus)、谷歌(RT、DeepMind)、英伟达(Grok01、仿真平台) - **国内厂商**:Finger AI(Helix)、宇树、小鹏、银河通用、星海图智元优必选、深圳众擎 - **创业公司**:Path、Pi(Pi 0.5混合架构) --- **核心观点与论据** **1 具身智能模型架构分类与特点** - **完全端到端大模型**: - 代表:特斯拉FSD、谷歌RT、英伟达Grok01 - 特点:需万亿级真实长流程任务数据,算力要求极高,适合数据资源丰富的大型科技公司[4][8][9] - **多模态融合大模型**: - 代表:VLM(视觉-语言-图像)、VOA(视觉-图片-语言-动作) - 特点:集成文本、图像、动作信息,实现决策闭环[4] - **触觉传感器融合模型(VL-T)**: - 特点:加入压力、滑觉等触觉数据,提升操作精度[4] **2 数据的关键作用** - **数据量决定泛化能力**:需覆盖所有可能任务场景(如特斯拉长流程数据)[5] - **多模态数据需求**:包括动作、触觉等物理量数据,以支持实际操作[5] - **算力瓶颈**:多模态数据处理对算力要求极高,限制高级系统开发[5] **3 企业挑战与解决方案** - **挑战**:数据需求大(万亿级)、算法复杂度高、系统连接与解耦问题[6] - **分层端到端模型**: - 代表:Finger AI的Helix(S1+2架构),合并认知与决策层,提升效率[7] - **混合架构(Pi 0.5)**:融合分层与端到端优势,解决系统通信问题[10] **4 运动控制算法进展** - **强化学习+仿真模拟**: - 应用:宇树、小鹏与英伟达合作,通过合成数据训练,缩短学习周期(如跳舞动作从2个月缩短至1周)[15] - 国内水平:全球领先(宇树、银河通用等)[13][15] - **双手操作模型演进**: - 从模仿学习→强化学习→仿真到真实迁移(1:1迁移效果)[16] **5 数据采集策略** - **特斯拉转变**:从一人称远程操控→第三人称视频学习,结合仿真平台提升效率[18][19] - **国内现状**:通过数据采集场(北京、上海等地)积累真实场景数据,类似特斯拉早期阶段[20] **6 全球发展格局** - **海外领先**:谷歌DeepMind、英伟达、特斯拉、Path、Finger[21] - **国内跟进**:头部厂商聚焦数据积累与模型训练,硬件发展快于“大脑”(智能系统)[22] --- **其他重要内容** - **工业机器人局限性**:依赖预设算法,泛化能力弱[14] - **认知模块成熟度**:大型语言/VLM基础模块已成熟(如物品识别、语音指令理解)[11] - **决策模块功能**:拆解复杂任务为动作序列,强化学习提升开放环境适应性[12] - **投资关注点**:具身智能“大脑”供应链(英伟达、谷歌等)是产业化核心瓶颈[22]