报告行业投资评级 未提及 报告的核心观点 - 数据是推动具身智能技术快速突破和落地应用的关键,优质数据集能驱动智能体感知与理解环境,加速具身智能模型的训练与部署,帮助机器人完成复杂任务 [3][17] - 具身智能数据按采集方式分为真实数据和仿真数据,两者互补,未来训练将大量混合使用 [3][22] - 目前具身智能数据多为厂商自采集,存在丰富开源数据集,但大规模真机数据采集成本高 [3] - 机器人仿真数据依赖虚拟场景,场景合成方案可拆解为场景生成与模拟两部分 [3] - 建议重点关注布局具身智能数据集的企业,如均胜电子、海天瑞声、索辰科技、华如科技 [3][76] 根据相关目录分别进行总结 具身智能数据集基本概念 - 具身智能的关键因子包括算法、算力、机器人硬件和数据,目前数据是世界级难题 [11] - 数据是具身智能技术突破和应用的关键,但高质量、多样化数据集稀缺,构建此类数据集是基础工作,且数据集的标准和有效很重要 [17] - 数据采集的关键价值包括促进通用智能形成、增强环境理解能力、支持任务迁移与泛化、提升实时决策能力,其难点包括高昂成本、数据复杂性、覆盖面不足、仿真 - 现实差距和设备差异性 [21][20] - 具身智能数据分为真实数据和仿真数据,真实数据通过传感器在真实环境交互采集,来源有机器人遥操和动作捕捉;仿真数据借助计算机模拟技术在虚拟环境生成,两者互补,未来将混合使用 [22][24] - 具身智能数据质量把控重要,中国信通院等编制了相关标准,国家地方共建具身智能机器人创新中心牵头立项行业标准并发布多项报告,加速具身智能行业良性发展 [27] 国内外具身智能真实数据集现状 - 当前具身智能机器人数据多为厂商自采集,采集方式有直接接触和间接接触两种,真机数据采集成本高,市面上存在丰富高质量开源数据集 [32] - 介绍了多个具身智能开源数据集,如智元的AgiBot World、谷歌的Open X - Embodiment、国地共建中心的RoboMind等,涵盖演示数量、场景任务、动作技能等信息 [30] - 智元的AgiBot World是全球首个基于全域真实场景等的百万真机数据集,长程数据规模、场景范围覆盖面等优于谷歌相关数据集,涵盖多种场景和操作对象,基于特定机器人采集数据 [35] - 谷歌的Open X - Embodiment是开放的大规模标准化机器人学习数据集,研究人员训练了RT - 1和RT - 2模型 [38] - 国地共建中心的RoboMind数据集解决了全球开源数据集的一些问题,采用多种形态机器人采集数据,涵盖多任务多场景,计划开源数据 [41] - 特斯拉Optimus机器人的数据有三个来源,目前数据来自VR遥操和动捕手套 [45] - 国家地方共建人形机器人创新中心启用具身智能训练场,助力数据采集 [46] 国内外具身智能仿真数据集现状 - 机器人仿真数据依赖虚拟场景,场景合成方案可拆解为场景生成与模拟,场景生成引擎有合成视频 + 3D重建和AIGC直接合成3D数据两种技术路径 [3][52] - 群核科技是空间智能领军企业,其SpatialVerse为机器人提供优质数据服务,构建物理正确的数据集库 [60] - Hillbot专注具身合成数据,利用3D生成式AI技术生成数据和模拟互动 [61] - World Labs专注空间智能,发布空间智能模型,生成逼近物理世界的3D环境建模 [64] - 智元推出AgiBot Digital World仿真框架,开源海量仿真数据集,涵盖多种场景、物品、材质和技能 [67] - CMU联合开源生成式物理引擎Genesis,为机器人提供统一模拟平台 [68] - 英伟达的NVIDIA Isaac Sim结合Cosmos可生成可控合成数据,同时发布的Isaac GR00T Blueprint可帮助开发者生成合成轨迹数据 [74] 相关标的 - 重点关注布局具身智能数据集的企业,包括均胜电子(数据场)、海天瑞声(机器人数据集)、索辰科技(数据仿真)、华如科技(数据仿真) [76]
具身智能数据:AI时代的石油
东吴证券·2025-06-05 09:23