数据集发布背景与意义 - 机器人智能向自主化、通用化发展,数据的战略地位日益凸显,具身智能模型的泛化能力是制约机器人从“特定任务执行器”向“通用智能体”跃升的关键瓶颈 [1] - 仅依赖同质、封闭式、极度垂直的数据来源难以支撑机器人系统的快速迭代与泛化能力突破 [1] - “白虎”数据集于2025年5月29日在2025张江具身智能开发者大会上正式发布,旨在破解机器人行业及具身智能领域的数据瓶颈难题 [1] 数据集核心特点与规模 - “白虎”数据集是全球首个规模突破百万量级的异构机器人数据集,数据于2025年初在全球首个异构人形机器人训练场完成采集 [1] - 数据集数据源自真实应用场景,全面覆盖多种全尺寸人形机器人、类人形轮式机器人以及机械臂等异构平台 [1] - 数据集已通过中国信息通信研究院的具身智能数据集质量评估,获得官方颁发的《数据集质量检测报告》及《具身智能数据集质量评估证书》,成为我国首个获得信通院权威认证的具身智能机器人数据集 [2] 跨平台异构融合 - 数据集打破了基于孤立平台进行数据采集和模型训练导致的格式割裂、标准不统一问题,建立了可适配多种机器人本体数据以及人体运动数据的闭环链路 [5] - 数据集涵盖了多款机器人本体,包括国地中心青龙、PortaGrip便携式采集设备、智元A2-D、智元A2、星海图R1、傅利叶GR-2、乐聚夸父等平台 [7] - 具体数据占比为:青龙约33.7%,便携式采集设备约5.9%,智元A2-D约28.2%,智元A2约9.3%,星海图R1约13%,傅利叶GR-2约3.8%,乐聚夸父约1.5%,另包含约2.9%的动捕人体运动数据 [7] 多场景真实模拟 - 数据集围绕五大主要应用场景系统构建,全面覆盖机器人在现实生活与生产中的关键应用领域 [8] - 多场景设计可显著提升模型的环境感知与跨场景泛化能力,为机器人在复杂现实环境中的稳定应用与协作提供数据支撑 [8] 多任务协同训练 - 数据集构建了多维度任务体系,通过抓取、放置、递接等原子技能的组合调度实现任务结构化拆解,形成多层级、可跨场景复用的机器人能力框架 [12] - 数据采集横跨多个代表性机器人本体,每一平台均执行多种任务类型,并在不同真实场景中完成,实现了多本体、多任务、跨场景的系统性数据构建 [12] 多样目标物交互 - 数据集构建了跨场景、跨任务的操作目标体系,覆盖上百类具有代表性的真实物体 [14] - 物体来源广泛,包括家庭日用品、厨房器具、商超商品、物流包裹、工业构件、工具部件,以及柔性材料与非规则形态物品,在形状、尺寸、重量、材质等方面高度多样 [14] 多时间尺度覆盖 - 数据集通过对任务执行过程的全程记录,构建了涵盖短中长多尺度时间跨度的轨迹数据体系 [16] - 短程轨迹涉及抓取、点击等动作,中长程轨迹涵盖递交、开关等任务,长程轨迹对应清洁打扫、上下料等连续复杂操作,层级化设计促进了模型对动作节奏和时序逻辑的理解 [16] 原子技能体系 - 数据集系统性规范化标注了百余种原子技能,如抓取、推动、拉取、递交、放置、插入等,作为具身智能机器人复杂操作的最基础单元 [26] 质量控制与工具链 - 国地中心采取了全面的数据质量控制措施,通过系统化设计的采集流程管理,结合相关标准建立了全方位的数据质量检测体系 [28] - 数据集配套提供完备的数据工具链,用户可快速查看各类具身数据,包括具体数值、关节运动曲线、相关图像及视频内容,并配套提供Python SDK,可实现与LeRobot开源框架的数据格式便捷转换 [30] 应用成效与行业影响 - 基于主流具身智能算法模型的系统性实验评估测试显示,相比单一本体数据集,跨本体任务迁移成功率提升超50% [33] - 复杂操作任务执行成功率最高达95%以上,在未见物体、未见任务、未见场景的零样本任务中,首次执行成功率最高可达到85% [33] - 数据集攻克了数据体量、工程标准、应用广度与智能深度四大关键领域的难题,通过统一结构和严格质量流程,解决了行业数据割裂与标准不一问题 [35]
重磅︱国地中心发布首个权威认证百万规模异构数据集—“白虎”,打造具身智能机器人训练数据新标杆!
机器人大讲堂·2025-06-02 20:52