XRoboToolkit

搜索文档
XRoboToolkit:延迟低、可扩展、质量高的数据采集框架
具身智能之心· 2025-08-07 08:03
核心背景与目标 - 视觉-语言-动作模型(VLAs)快速发展,对大规模、高质量机器人演示数据集需求迫切 [3] - 现有遥操作方案存在可扩展性有限、设置复杂、数据质量欠佳等问题 [3] - XRoboToolkit基于OpenXR标准,通过低延迟立体视觉反馈、优化逆运动学算法及模块化架构解决现有局限 [3] 现有遥操作方案的局限 - Leader-follower方案:延迟低但依赖定制硬件,可扩展性受限 [5] - 视觉基遥操作系统:硬件兼容性强但跟踪性能不稳定、延迟高 [5] - XR方案:跨平台通用但配置复杂,缺乏标准化数据格式,新设备集成工作量大 [5] XRoboToolkit的核心设计 整体架构 - 三层结构:XR端(Unity-Client)、服务端(PC-Service)、机器人端(模块化接口) [4] - 支持多种机器人平台(UR5、ARX R5机械臂等)和模拟器(MuJoCo) [5] 数据流式传输 - 异步回调驱动架构实现实时数据传输 [7] - 数据格式:6自由度位姿数据以7个浮点数表示,90Hz频率传输,封装为JSON对象 [9] - 跟踪数据类型涵盖头、控制器、手、全身及运动跟踪器,具体字段见Table 1 [7][9] 机器人控制模块 - 逆运动学求解:基于二次规划(QP)的IK solver,优化目标函数生成平滑运动 [8] - 灵巧手重定向:将OpenXR手模型26个关节点映射到机器人手关节,优化函数实现平滑运动 [10] - 移动基座控制:XR控制器摇杆实现全向移动平台控制,左摇杆线速度,右摇杆角速度 [10] XR Unity应用与立体视觉反馈 - 应用界面包含5个面板(Network、Tracking、Remote Vision等),支持PICO 4 Ultra和Meta Quest 3 [16] - 立体视觉支持PICO 4 Ultra和ZED Mini,自定义着色器调整瞳距,优化深度感知 [16] 应用场景与验证 多平台适配 - 双臂系统完成地毯折叠,移动操纵器完成运输放置 [16] - 双UR5机械臂实现3mm螺丝刀插入4mm孔(公差±0.5mm) [16] - 冗余机械臂控制通过肘部运动跟踪器引入约束,实现类人化运动 [16] 性能评估 - 延迟对比:XRoboToolkit(ZED Mini-PICO 4 Ultra)平均延迟82ms,显著低于Open-TeleVision的121.5ms [11] - PICO 4 Ultra自传输配置延迟100.5ms,稳定性最优(标准差3.12ms) [11] - 数据质量验证:ARX R5双臂折叠地毯数据微调模型后,30分钟连续运行成功率100% [13]