Gemini Robotics 1.5 系列
搜索文档
机械设备行业专题研究:机器人大脑是商业化焦点,Sim2real或成主流训练方案
国盛证券· 2025-10-26 17:06
行业投资评级 - 增持(维持)[4] 核心观点 - 机器人大脑是商业化焦点,Sim2real或成主流训练方案 [1] - 从LLM到VLA再到世界模型,人形机器人“大脑”发展迅猛,模型性能逐步提高 [1][9] - Tesla Optimus等海外模型拟人化程度高,国内研究机构在算法和数据集方面取得不错进展 [3] 机器人大脑模型技术演进 - LLM基于大规模文本数据训练的Transformer架构,解决了文本理解问题但无法处理图像 [9] - VLM跨模态融合突破文本限制,可同时识别图像和文本,由视觉编码器和语言模型组成 [12] - VLA模型跨越了图像/文本感知与机器人动作之间的鸿沟,RT-2是全球首个VLA模型,极大提升了泛化能力但数据收集成本较高 [1][17] - 模型输入端从视觉扩展到触觉,提升了鲁棒性 [1] - ViLLA框架采用无标注视频训练,解决了机器人动作不符合物理学的问题 [22] - 机器人模型终局形态或为世界模型,如Gemini Robotics 1.5系列已具备思维能力,可将AI世界带入物理世界 [26][28] 主流训练方案与发展 - Sim2Real或为未来主流训练方式,通过合成数据生成技术让机器人积累经验,使用虚拟数据为主、真实数据为辅 [2] - Sim2Real技术核心是串联AI超级计算机、仿真计算机(Omniverse和Isaac Sim)和物理AI计算机(GROOT、Cosmos、Jetson Thor)三台计算机 [2] - 银河通用发布的DexonomySim开源合成数据集即采用虚拟与真实数据合成 [2] 重点公司/机构模型分析 - Tesla Optimus的AI系统高度借鉴FSD技术,采用纯视觉方案和端到端单一神经网络,并与xAI的Grok模型深度融合,拟人化程度高 [29][30][33] - Tesla从模仿学习转向视频学习,下一步大模型架构方向或为世界模型 [36] - 北京通用人工智能研究院提出全球首个“力位混合控制算法”统一理论,无需使用传感器,相关任务成功率较仅使用位置控制策略提高约39.5% [3][58] - 银河通用发布全球首个灵巧手功能性抓取合成大数据集DexonomySim [3] - 智元启元大模型(GO-1)采用ViLLA架构,由VLM和MoE组成,可结合互联网视频和人类示范进行学习 [40] - Figure AI的Helix模型采用“系统1”(200Hz高速执行)与“系统2”(7-9Hz语义推理)双层解耦架构,可通过语言指定获取新技能 [46][48] - 宇树科技推出的UnifoLM-WMA-0是世界模型-动作架构,核心是理解机器人与环境交互物理规律的世界模型 [51]