Workflow
RoboWheel数据引擎
icon
搜索文档
全球首个基于视频转3D具身数据的数据集开源!动捕、遥操获取数据的时代要结束了?
机器人大讲堂· 2026-01-16 08:03
行业背景与痛点 - 机器人学习领域长期面临“数据荒”痛点,传统训练依赖昂贵的遥操作设备或专业动捕工作室,成本高且难以覆盖真实世界多样化场景[1] - 互联网上存在海量人类手-物交互视频,但因物理不一致、形态不匹配等问题,长期无法有效用于机器人训练[1] 技术发展趋势与行业现状 - 通过互联网视频提取具身智能训练数据,已成为行业突破“数据荒”的重要方向[3] - 特斯拉早在2025年已明确布局此路线,其Optimus机器人已实现通过第一视角视频学习扫地、炒菜等16项任务,并后续加大使用互联网第三人称视频以扩大训练规模,复刻FSD的成功路径[3] - 国内不少企业也在跟进这一技术路线,但行业处于各自为战状态,多数企业的数据仅服务于自有模型,既不对外开源,也缺乏统一的质量评估标准,导致数据精度、一致性等核心指标无法量化验证,难以形成协同效应[3] 核心解决方案:RoboWheel数据引擎 - 清华大学与枢途科技研发团队联合推出RoboWheel数据引擎,该引擎可将普通单目RGB/RGB-D相机拍摄的人类手-物交互视频,转化为适用于工业机械臂、灵巧手、人形机器人等不同形态设备的训练数据,无需复杂硬件即可实现媲美遥操作的训练效果[5] - 技术核心在于对人类手-物交互的高精度解析与灵活转化能力,共包含三个关键部分:物理可信的HOI重建、跨形态重定向、仿真增强[10] 技术细节:物理可信的HOI重建 - 整合人体姿态估计、物体重建技术,精准提取手部MANO参数、物体6D位姿及网格模型[13] - 解决了传统重建中常见的穿透、抖动问题,通过基于符号距离函数的碰撞惩罚机制避免不符合物理规律的穿透,再通过残余强化学习优化,在保证机器人可达性的前提下修正手-物相对姿态[14] - 重建质量在关键指标上全面超越现有方法:物体表面Chamfer距离仅5.1cm,远低于HORT的8.9cm;手部抖动降至0.92cm/s²,是现有最优方案的1/3以下;手-物相对姿态的平移标准差仅0.26cm,旋转标准差1.9度[15][18] 技术细节:跨形态重定向 - 能将统一的人类动作轨迹,灵活映射到各类机器人的操作空间,适配6/7自由度工业机械臂、灵巧手和人形机器人等不同形态[19] - 对于工业机械臂,系统通过KNN分类器判断人类手势类型,并配合CoTracker关键点跟踪技术精准判断夹具开合状态[19] - 该重定向方案在UR5机械臂上的直接复现成功率高达91.7%,远超GAT-Grasp的50%和YOTO的66.7%[19] 技术细节:仿真增强 - 在Isaac Sim仿真环境中构建了丰富的数据增强体系,在保持交互语义不变的前提下,极大拓展数据分布的多样性[20] - 增强策略包括:设备形态随机化(将同一轨迹适配到5种主流机械臂)、物体检索替换、轨迹增强、场景增强(随机化背景纹理、光照条件等)[21] - 所有增强操作在统一的规范动作空间中进行,确保不同形态、不同场景下的交互逻辑保持一致,进一步提升机器人泛化能力[21] 核心产出:HORA数据集 - 基于RoboWheel数据引擎,研究团队构建并推出了大规模多模态数据集HORA[7] - 数据集已包含15万条轨迹的多模态机器人训练数据,融合多摄像头采集数据、单目视频及公开HOI语料库[7] - 数据集具备“双模态兼容”特性,既包含手-物交互相关的手部参数、物体位姿、接触标注等HOI模态,也提供机器人视角观测、末端执行器轨迹等机器人专用模态,其中动捕子集还记录了高精度触觉信号[22] - 与现有数据集相比,HORA不仅规模更大,更实现了从人类交互到机器人操作的直接衔接,填补了传统HOI数据集缺乏机器人可用数据、而机器人数据集缺乏完整HOI语义信息的空白[24][25] - 枢途科技表示,目前开源的数据集仅为HORA数据集的一部分,预计最终版本的数据规模将达到百万量级,有望成为全球规模最大的基于视频转3D具身数据的数据集[9] 实测性能验证 - 在真实机器人实验中,RoboWheel生成的数据展现出惊人实用价值[26] - 仅用10条HORA轨迹微调的模型,性能与基于10条遥操作数据训练的模型相当:简单任务平均成功率18.8% vs 12.5%,困难任务6.3% vs 1.3%[28][29] - 经过5k HORA轨迹预训练后,模型性能大幅跃升:RDT+5k HORA在简单任务上成功率达85%,困难任务达47.5%[28][29] - 在泛化性测试中,基于增强后HORA训练的RDT模型,在未知背景下的成功率提升了25%,有效抵御了视觉域偏移带来的性能下降[30][31] 行业影响与意义 - RoboWheel数据引擎的出现降低了机器人技能学习的门槛,以往需要专业动捕实验室或昂贵遥操作设备才能获取的高质量训练数据,如今只需一台普通相机拍摄人类操作视频即可生成[32] - 这种“低成本数据采集+高保真技能转化”模式,有望推动机器人学习进入规模化、普惠化阶段,大幅缩短开发周期[32] - 该技术为机器人从人类演示中学习开辟了一条高效、灵活、低成本的新路径,有望加速通用机器人技术的落地进程[32] - 研发团队计划今年继续扩充HORA数据集规模到百万量级,并探索更多在更丰富机器人形态上进行学习训练的可能性[32]