Workflow
具身智能数据集
icon
搜索文档
上海机器人产业技术研究院与麦迪科技达成战略合作
快讯· 2025-06-30 11:49
战略合作 - 上海机器人产业技术研究院与麦迪科技签署战略合作协议 [1] - 合作聚焦医康养领域具身智能数据集的联合打造 [1] - 合作内容包括标准化建设及场景化应用 [1] 合作领域 - 重点推进智能机器人在医疗、康复、养老场景的技术落地 [1] - 共同构建智能机器人产业生态 [1]
具身智能机器人,开始布局超级数据工厂了
21世纪经济报道· 2025-06-23 17:00
项目概况 - 帕西尼感知科技主导建设的具身智能超级数据工厂(Super EID Factory)正式投入运营,选址天津市河西区空天数字产业园,面积近12000平方米 [1] - 该工厂预计年产近2亿条高维训练数据,号称全球规模最大、数据采集体量领先的具身智能数据采集与模型训练基地 [1] - 工厂构建"15+N"全场景矩阵为基础的千种任务与百万道工序,覆盖汽车制造、3C装配、家庭、办公、餐饮等全链条应用环境 [1] 行业对比 - 北京具身智能机器人创新中心成立于2023年,由优必选、小米机器人等10家单位联合组建,数据集达百万级 [2] - 帕西尼数据工厂数据量达上亿级别,远超行业现有规模 [2] 技术优势 - 部署150个标准化采集单元,基于真人手部动作姿态捕捉,通过"空间视觉矩阵"实现视觉-触觉模态对齐,提升数据通用性 [2] - 独创多模态神经织网技术(Neural Mesh),实现触觉、视觉、关节角度等多维度数据无损采集 [3] - 通过体感重定向系统(Soma Redirect)使数据可跨机器人型号输出,突破跨本体泛化能力瓶颈 [2] 成本与效益 - 无需依赖昂贵机器人本体采集数据,显著降低采集成本,实现大规模高质量数据生产 [2] - 数据工厂将助力公司多模态数据集(MotionSharing DB)升级为全模态数据集(OmniSharing DB) [3] 商业进展 - 全模态数据集将提升公司自研TacFlow Engine大模型,形成数据与模型相互驱动的共生飞轮 [3] - 公司5日前完成A系列第四轮融资,获TCL创投、毅达资本等多家机构数亿元人民币投资 [3]
具身智能数据:AI时代的石油
东吴证券· 2025-06-05 09:23
报告行业投资评级 未提及 报告的核心观点 - 数据是推动具身智能技术快速突破和落地应用的关键,优质数据集能驱动智能体感知与理解环境,加速具身智能模型的训练与部署,帮助机器人完成复杂任务 [3][17] - 具身智能数据按采集方式分为真实数据和仿真数据,两者互补,未来训练将大量混合使用 [3][22] - 目前具身智能数据多为厂商自采集,存在丰富开源数据集,但大规模真机数据采集成本高 [3] - 机器人仿真数据依赖虚拟场景,场景合成方案可拆解为场景生成与模拟两部分 [3] - 建议重点关注布局具身智能数据集的企业,如均胜电子、海天瑞声、索辰科技、华如科技 [3][76] 根据相关目录分别进行总结 具身智能数据集基本概念 - 具身智能的关键因子包括算法、算力、机器人硬件和数据,目前数据是世界级难题 [11] - 数据是具身智能技术突破和应用的关键,但高质量、多样化数据集稀缺,构建此类数据集是基础工作,且数据集的标准和有效很重要 [17] - 数据采集的关键价值包括促进通用智能形成、增强环境理解能力、支持任务迁移与泛化、提升实时决策能力,其难点包括高昂成本、数据复杂性、覆盖面不足、仿真 - 现实差距和设备差异性 [21][20] - 具身智能数据分为真实数据和仿真数据,真实数据通过传感器在真实环境交互采集,来源有机器人遥操和动作捕捉;仿真数据借助计算机模拟技术在虚拟环境生成,两者互补,未来将混合使用 [22][24] - 具身智能数据质量把控重要,中国信通院等编制了相关标准,国家地方共建具身智能机器人创新中心牵头立项行业标准并发布多项报告,加速具身智能行业良性发展 [27] 国内外具身智能真实数据集现状 - 当前具身智能机器人数据多为厂商自采集,采集方式有直接接触和间接接触两种,真机数据采集成本高,市面上存在丰富高质量开源数据集 [32] - 介绍了多个具身智能开源数据集,如智元的AgiBot World、谷歌的Open X - Embodiment、国地共建中心的RoboMind等,涵盖演示数量、场景任务、动作技能等信息 [30] - 智元的AgiBot World是全球首个基于全域真实场景等的百万真机数据集,长程数据规模、场景范围覆盖面等优于谷歌相关数据集,涵盖多种场景和操作对象,基于特定机器人采集数据 [35] - 谷歌的Open X - Embodiment是开放的大规模标准化机器人学习数据集,研究人员训练了RT - 1和RT - 2模型 [38] - 国地共建中心的RoboMind数据集解决了全球开源数据集的一些问题,采用多种形态机器人采集数据,涵盖多任务多场景,计划开源数据 [41] - 特斯拉Optimus机器人的数据有三个来源,目前数据来自VR遥操和动捕手套 [45] - 国家地方共建人形机器人创新中心启用具身智能训练场,助力数据采集 [46] 国内外具身智能仿真数据集现状 - 机器人仿真数据依赖虚拟场景,场景合成方案可拆解为场景生成与模拟,场景生成引擎有合成视频 + 3D重建和AIGC直接合成3D数据两种技术路径 [3][52] - 群核科技是空间智能领军企业,其SpatialVerse为机器人提供优质数据服务,构建物理正确的数据集库 [60] - Hillbot专注具身合成数据,利用3D生成式AI技术生成数据和模拟互动 [61] - World Labs专注空间智能,发布空间智能模型,生成逼近物理世界的3D环境建模 [64] - 智元推出AgiBot Digital World仿真框架,开源海量仿真数据集,涵盖多种场景、物品、材质和技能 [67] - CMU联合开源生成式物理引擎Genesis,为机器人提供统一模拟平台 [68] - 英伟达的NVIDIA Isaac Sim结合Cosmos可生成可控合成数据,同时发布的Isaac GR00T Blueprint可帮助开发者生成合成轨迹数据 [74] 相关标的 - 重点关注布局具身智能数据集的企业,包括均胜电子(数据场)、海天瑞声(机器人数据集)、索辰科技(数据仿真)、华如科技(数据仿真) [76]