Workflow
机器人系列报告一:具身智能:决定机器人泛化能力天花板的“大小脑”
中泰证券·2025-03-10 21:30

报告行业投资评级 未提及 报告的核心观点 - 具身智能是机器人与人工智能发展的交汇点,是两者深度融合形成的必然产业趋势 [2] - 目前具身大模型分为端到端大模型和分层具身大模型,受数据制约端到端大模型未成为主流 [2] - 训练具身大模型痛点是数据缺乏,主要数据收集方法有远程操作、AR、仿真、视频学习 [2] - 人形机器人产业未来从专用到通用、从ToB到ToC,短期工业制造场景先商业化,之后向更开放场景延伸,市场有望达万亿级 [2] - 建议投资人关注具身智能产业技术变革突破、商业化落地路线等,关注索辰科技、能科科技等标的 [3] 根据相关目录分别进行总结 什么是具身智能 - 具身智能是基于物理身体感知和行动的智能系统,通过智能体与环境交互产生智能行为和适应性,在机器人上应用分感知、推理、执行三阶段 [8] - 具身感知分物体、场景、行为、表达感知四类,过程包括感受信息、信息表示/建模/重建、信息理解、下游任务 [9] - 具身推理包括任务规划、导航、具身问答,任务规划将人类指令转换为可执行技能,导航分早期基于规则和基于学习的导航,具身问答是机器人主动探索环境回答问题 [11][13][15] - 具身执行关键是技能学习,有模仿学习和强化学习两类方法,两者区别在于是否与环境交互 [17] 具身智能:机器人与AI的交汇 - 机器人通用性取决于泛化性发展程度,从人工设计程序到通用型智能机器人关键问题是泛化性 [22] - 机器人发展从自动化工具到智能体,人工智能发展从理性主义到深度学习,具身智能是两者发展的汇聚点 [24][27][30] - 2024年具身智能投资热,投资热点从人形机器人本体向具身智能模型和上游零部件迁移 [34] 具身大模型赋能人形机器人蜕变 - 大模型分非具身大模型和具身智能大模型,具身大模型分端到端大模型和分层具身大模型,分层式曾是主流,端到端未来可能成主流 [37][40] - 端到端大模型可实现从人类指令到机械臂执行,如谷歌RT - 1到RT - 2的进化,VLA模型是端到端大模型2.0阶段,结合视觉、语言和动作能力,优点是端到端架构、泛化和通用性强,缺点是数据来源有限、推理响应速度待提升 [42][44][49] - 分层端到端大模型将各模块分解为多层级,大模型为“大脑”负责高层次认知决策,“小脑”加载人工智能技术运动更拟人,通往One - Model端到端大模型是循序渐进过程 [51][53][58] - 人形机器人核心壁垒与挑战是数据缺乏,业界形成远程操作、AR、仿真、视频学习四种数据积累方法 [60] - 宇树、特斯拉、波士顿动力、Figure AI、银河通用、智元机器人、优必选、傅利叶等厂商在数据采集、模型训练等方面有不同做法 [73][74][76] 具身智能赋能下,未来机器人发展方向 - 人形机器人产业从专用到通用、从ToB到ToC,ToB是必经阶段,ToC是远期重点,不同阶段发力重点不同,落地分三个阶段,工业制造场景先落地 [96][100] - 工业制造场景因流程特点在具身智能落地有先发优势,配天机器人、伟景智能有相关应用范例 [102][104][106] - 世界模型是实现通用人工智能重要环节,可辅助具身大模型训练,提供仿真数据,降低机器人训练成本 [108][110][112]