Workflow
动捕设备能成为具身大模型的下一场蓝海吗?
机器人大讲堂·2025-08-21 18:11

具身智能产业发展历程 - 具身智能概念可追溯至20世纪50年代图灵论文[1] - 1980-1990年代进入早期探索与理论发展阶段[1] - 2000年代初形成跨学科融合与技术突破[1] - 2010年代中期深度学习技术注入新动力[1] - 2020年以来逐步走向产业应用[1] 大模型技术演进 - 大模型发展始于20世纪AI研究初期[2] - 2017年谷歌Transformer引入自注意力机制[2] - 2022年底ChatGPT推动NLP领域发展[2] - 2023年3月GPT-4实现多模态转变[2] 具身大模型发展路径 - 由非具身大模型发展而来[4] - 谷歌RT系列为代表:2022年RT-1结合视觉/语言/动作[4] - 2023年RT-2提升多模态融合能力[4] - 特斯拉FSD v12采用端到端架构[4] - 2024年RFM-1推动向通用化发展[4] 核心技术架构 - Transformer模型解决RNN梯度消失问题[5] - 采用自注意力机制和位置编码层[5] - GPT基于Transformer预训练范式[7] - 强化学习通过环境交互学习最优策略[9] - 多模态融合分早期/中期/晚期三个层次[9] 模型架构对比 - 分层模型将任务分解为规划/决策/控制三层[9] - Figure AI部署三层架构:OpenAI model/Neural Network Policies/Whole Body Controller[11] - 端到端模型直接映射输入输出[12] - RT-2使用VLM生成动作token序列[12] - 端到端模型泛化能力强但可解释性差[14] - 分层模型模块化好但系统复杂[14] 数据资源体系 - 具身机器人数据集仅2.4M(Coatue数据)[15] - 2024年多家机构发布高质量数据集[15] - 数据采集呈金字塔结构:底层仿真/中层动捕/顶层遥操[17] - 遥操数据量最少但准确性最高[17] - 动捕技术实现实时动作捕捉[19] - 仿真数据降低成本但存在差异[19] 训练场建设进展 - 特斯拉Optimus/谷歌RT-X建设训练场[20] - 斯坦福与DeepMind推出ALOHA2框架[20] - 2025年1月上海启用全国首个异构人形机器人训练场[22] - 首期部署超100台异构人形机器人[22] - 计划2025年收集1000万条实体数据[22] 动作捕捉技术 - 系统由硬件(传感器/捕捉设备)和软件构成[23] - 分机械式/声学式/电磁式/惯性传感器式/光学式五类[25] - 基于真实本体的数据采集成本最高[27] - 基于虚拟本体的数据存在环境互通性问题[27] - 数据连续性比精度更重要[27] 产业链重点企业 - 度量科技:光学三维动作捕捉系统精度达0.01mm/0.1°[28] - 凌云光:FZMotion系统具备实时跟踪测量功能[29] - 奥飞娱乐:投资诺亦腾开发MEMS惯性传感器[30] - 利亚德:OptiTrack技术应用于影视游戏领域[31] - 洲明科技:非穿戴式系统实现毫秒级延迟反馈[32] - 芯动联科:MEMS惯性传感器拓展至机器人领域[33]