具身智能数据集

搜索文档
智海铸基,数聚砺剑——华为助力国地中心构建全球首个百万量级异构机器人数据集
机器人大讲堂· 2025-07-21 18:03
具身智能产业发展 - 具身智能(EAI)是人工智能与机器人学深度融合的前沿领域,被视为引领未来生产力变革的关键驱动力,直接影响国家在未来产业中的地位 [1] - 我国通过政策顶层设计和技术攻关加速具身智能产业从技术验证向规模商用过渡,目标实现产业链从"跟跑"向"领跑"转变 [1] - 2025政府工作报告将具身智能列为培育新兴产业、未来产业的战略重点方向 [1] 国家地方共建人形机器人创新中心 - 该中心于2024年5月由工信部和上海市政府共同授牌成立,是人形机器人领域首个国家级公共平台 [1] - 中心致力于构建行业大数据集,推动技术研发、企业孵化与人才培育 [1] - 华为正助力中心建设全国首个异构超大型人形机器人训练场,初期可容纳100台+人形机器人同时训练,2027年将扩容至1000台 [1] 异构人形机器人具身智能训练场 - 训练场是全球首个异构人形机器人具身智能训练场,也是我国首个国家级人形机器人训练场 [3] - 训练场聚焦领域发展趋势、国家重点场景和真机具身数据,强化人形机器人研发和应用基础支撑 [3] - 训练场五大核心功能包括数据收集与规模化、模型训练与发育、场景模拟与应用落地、模型测试与评估、人才培养与生态建设 [4][5][7][8][9] 华为助力训练场建设 - 华为助力国地中心打造"数据采集→数据传输→预处理→仿真合成→数据管理→模型训练"全生命周期解决方案 [11] - 采用"云-端"架构部署具身数据采集平台,单台机器人每日采集轨迹数据500条以上,每日总计5万条数据 [13][14] - 通过华为Wi-Fi+5G方案实现高带宽、低延迟、多设备并发连接,支持日增PB级数据传输 [14] - 采用华为云弹性计算+DWR数据工坊,支持日增PB级数据8小时内完成预处理 [15] - 使用华为SFS Turbo高性能缓存使能模型训练,单文件系统带宽达60GB/s,可降低数据存储成本40% [17] 数据集与生态建设 - 国地中心打造"白虎数据集v0.0.1",是全球首个规模突破百万量级的异构机器人数据集 [19][20] - 数据集通过信通院行业标准质量评估,为全产业链提供共享数据集和统一数据标准 [19] - 训练场模型将在OpenLoong开源社区、Hugging Face、GitHub等平台分阶段开源 [20] - 与清华大学、上海交大、华为等科研院所和企业深化合作,推动产业生态建设 [20] 行业企业名录 - 工业机器人企业包括埃斯顿自动化、埃夫特机器人、非夕科技等 [24] - 服务与特种机器人企业包括亿嘉和、晶品特装、七腾机器人等 [24] - 医疗机器人企业包括元化智能、天智航、思哲睿智能医疗等 [25] - 人形机器人企业包括优必选科技、宇树、云深处等 [25] - 具身智能企业包括跨维智能、银河通用、千寻智能等 [26] - 核心零部件企业包括绿的谐波、因时机器人、坤维科技等 [28]
从本体到数据,从VLA到VLN!大家在这里抱团取暖
具身智能之心· 2025-07-14 19:15
具身智能社区发展 - 社区成立三周年,专注于具身智能领域,目前正推动社区规模扩展至2000人[1] - 已见证ACT、RDT-1/RDT-2、CogACT、OpenVLA、π0、π0.5等具身智能技术迭代,行业进展迅速[1] - 社区成员包括学术研究者和求职者,内部梳理30+技术路线,覆盖benchmark检索、综述学习等需求[1] 资源与技术支持 - 汇集40+开源项目、60+具身智能数据集及主流仿真平台,提供技术学习路线如强化学习、VLN、VLA等[11] - 汇总国内外30家具身机器人公司(智元、优必选等)及高校实验室(斯坦福、清华等)资源[11][17] - 提供机器人零部件品牌清单(芯片、激光雷达等)及仿真平台资源(通用与真实场景仿真)[24][32] 行业活动与人才服务 - 举办圆桌论坛、直播活动,覆盖本体、数据、算法等主题,邀请产业界嘉宾参与[1] - 与多家具身公司建立内推机制,直接对接求职者与岗位需求[2] - 成员可获取专属研报(大模型、人形机器人等)、技术书籍(导航、动力学等)及数据集(触觉感知、机械臂抓取等)[19][22][30] 技术路线与研究方向 - 强化学习全栈方案涵盖LLM强化学习、可解释强化学习等子领域[34] - 具身感知路线整合3D视觉定位、触觉感知等任务,交互方向覆盖抓取、视觉语言模型等[36][38] - 多模态大模型内容包含理解(Image+Text到Text)与生成(Video+Text到Video+Text)技术[44][46] 社区互动与案例 - 成员可自由提问工作或研究方向问题,获行业大佬解答[66] - 案例:研一学生通过仿真项目(如Isaac Sim)准备具身智能实习,社区提供项目建议[68] - 直播内容涉及机器人操作系统(EMO S)、协同感知(RoboTwin数据集)等前沿主题[65]
从本体到数据,从VLA到VLN!一个近2000人的具身社区,大家在这里抱团取暖
具身智能之心· 2025-07-11 17:47
具身智能社区发展 - 社区成立三周年,当前重点推进具身智能方向,目标将社区规模扩展至2000人[1] - 已见证ACT、RDT-1/RDT-2、CogACT、OpenVLA、π0、π0.5等系列技术成果推出,显示领域发展迅速[1] - 社区成员包括学术研究者和求职者,提供30+技术路线梳理,覆盖benchmark检索、综述学习等需求[1] 社区资源与支持 - 邀请数十位产业界与学术界嘉宾参与,涵盖顶会专家和行业领袖,提供实时答疑[1] - 建立与近200家具身公司的内推合作机制,直接对接求职需求[2][5] - 汇总40+开源项目、60+数据集及主流仿真平台,技术路线包括强化学习、多模态大模型等12个细分领域[11] - 提供国内外高校实验室及头部公司名录,涉及斯坦福、清华、智元机器人等200+机构[11][14][17] 技术内容体系 - 按应用场景分类技术路线,包括机械臂抓取、机器人导航、Diffusion Policy等25个方向[11][35][37][51] - 整理行业研报、零部件品牌(芯片/激光雷达等)、机器人书籍及仿真平台资源[19][22][24][31] - 数据集覆盖触觉感知、视觉语言导航等8类任务,支持算法训练与验证[29] 会员服务与活动 - 定期举办圆桌论坛与直播,主题涵盖本体设计、算法优化等全产业链议题[1][64] - 提供专属学习视频、岗位推荐及项目对接服务,日均成本低于0.5元[16][71] - 社区互动案例:协助学生规划仿真环境项目,优化实习申请策略[68][69]
具身智能数据:AI时代的石油
东吴证券· 2025-06-05 09:23
报告行业投资评级 未提及 报告的核心观点 - 数据是推动具身智能技术快速突破和落地应用的关键,优质数据集能驱动智能体感知与理解环境,加速具身智能模型的训练与部署,帮助机器人完成复杂任务 [3][17] - 具身智能数据按采集方式分为真实数据和仿真数据,两者互补,未来训练将大量混合使用 [3][22] - 目前具身智能数据多为厂商自采集,存在丰富开源数据集,但大规模真机数据采集成本高 [3] - 机器人仿真数据依赖虚拟场景,场景合成方案可拆解为场景生成与模拟两部分 [3] - 建议重点关注布局具身智能数据集的企业,如均胜电子、海天瑞声、索辰科技、华如科技 [3][76] 根据相关目录分别进行总结 具身智能数据集基本概念 - 具身智能的关键因子包括算法、算力、机器人硬件和数据,目前数据是世界级难题 [11] - 数据是具身智能技术突破和应用的关键,但高质量、多样化数据集稀缺,构建此类数据集是基础工作,且数据集的标准和有效很重要 [17] - 数据采集的关键价值包括促进通用智能形成、增强环境理解能力、支持任务迁移与泛化、提升实时决策能力,其难点包括高昂成本、数据复杂性、覆盖面不足、仿真 - 现实差距和设备差异性 [21][20] - 具身智能数据分为真实数据和仿真数据,真实数据通过传感器在真实环境交互采集,来源有机器人遥操和动作捕捉;仿真数据借助计算机模拟技术在虚拟环境生成,两者互补,未来将混合使用 [22][24] - 具身智能数据质量把控重要,中国信通院等编制了相关标准,国家地方共建具身智能机器人创新中心牵头立项行业标准并发布多项报告,加速具身智能行业良性发展 [27] 国内外具身智能真实数据集现状 - 当前具身智能机器人数据多为厂商自采集,采集方式有直接接触和间接接触两种,真机数据采集成本高,市面上存在丰富高质量开源数据集 [32] - 介绍了多个具身智能开源数据集,如智元的AgiBot World、谷歌的Open X - Embodiment、国地共建中心的RoboMind等,涵盖演示数量、场景任务、动作技能等信息 [30] - 智元的AgiBot World是全球首个基于全域真实场景等的百万真机数据集,长程数据规模、场景范围覆盖面等优于谷歌相关数据集,涵盖多种场景和操作对象,基于特定机器人采集数据 [35] - 谷歌的Open X - Embodiment是开放的大规模标准化机器人学习数据集,研究人员训练了RT - 1和RT - 2模型 [38] - 国地共建中心的RoboMind数据集解决了全球开源数据集的一些问题,采用多种形态机器人采集数据,涵盖多任务多场景,计划开源数据 [41] - 特斯拉Optimus机器人的数据有三个来源,目前数据来自VR遥操和动捕手套 [45] - 国家地方共建人形机器人创新中心启用具身智能训练场,助力数据采集 [46] 国内外具身智能仿真数据集现状 - 机器人仿真数据依赖虚拟场景,场景合成方案可拆解为场景生成与模拟,场景生成引擎有合成视频 + 3D重建和AIGC直接合成3D数据两种技术路径 [3][52] - 群核科技是空间智能领军企业,其SpatialVerse为机器人提供优质数据服务,构建物理正确的数据集库 [60] - Hillbot专注具身合成数据,利用3D生成式AI技术生成数据和模拟互动 [61] - World Labs专注空间智能,发布空间智能模型,生成逼近物理世界的3D环境建模 [64] - 智元推出AgiBot Digital World仿真框架,开源海量仿真数据集,涵盖多种场景、物品、材质和技能 [67] - CMU联合开源生成式物理引擎Genesis,为机器人提供统一模拟平台 [68] - 英伟达的NVIDIA Isaac Sim结合Cosmos可生成可控合成数据,同时发布的Isaac GR00T Blueprint可帮助开发者生成合成轨迹数据 [74] 相关标的 - 重点关注布局具身智能数据集的企业,包括均胜电子(数据场)、海天瑞声(机器人数据集)、索辰科技(数据仿真)、华如科技(数据仿真) [76]