RoboMIND 2.0数据集
搜索文档
RoboMIND 2.0:面向通用化具身智能的大规模双臂移动操作数据集
具身智能之心· 2026-01-05 09:03
文章核心观点 - 北京人形机器人和北京大学团队发布了RoboMIND 2.0数据集及MIND-2算法框架,旨在解决机器人通用化操作的数据与算法瓶颈 [1] - RoboMIND 2.0是一个大规模、多模态、虚实融合的双臂移动操作数据集,包含310K条轨迹,覆盖6种异构机器人平台、759个复杂任务和129项核心技能 [1][14][16] - 配套提出的MIND-2快慢双系统框架,通过高层视觉语言模型规划与低层视觉语言动作模型执行,结合离线强化学习,在长时域复杂任务中性能超越传统方法 [1][26][31] 机器人操作领域的瓶颈 - **数据集维度单一**:现有数据集多聚焦单一机器人形态或任务类型,缺乏支撑跨场景泛化的大规模双臂协同与移动操作样本 [3][4] - **感知模态残缺**:几乎所有现有数据集仅依赖视觉与基础驱动状态,缺失触觉、力扭矩等关键物理交互反馈,限制了精细操作能力 [5][6] - **长时域任务数据稀缺**:现有数据多为短时域单一操作,缺乏长时域、多步骤的移动操作数据,导致模型在复杂连续决策场景中表现不佳 [7][8] - **虚实迁移成本高**:模拟数据与真实场景存在“虚实鸿沟”,而真实数据采集依赖昂贵硬件与人工监督,数据扩充面临效率与成本瓶颈 [9][10] - **双臂协同数据缺失**:真实世界中超过70%的复杂操作依赖双臂协同,但现有数据集相关高质量数据极度稀缺 [11][12] RoboMIND 2.0数据集核心设计与优势 - **规模与覆盖范围**:包含310K条双臂操作轨迹,累计时长超1000小时,覆盖759个复杂任务、129项核心技能、6种异构机器人平台及1139种不同物体 [14][16] - **数据采集与质量控制**:通过统一遥操作协议采集,设计三阶段质量控制流程过滤12类数据异常,确保数据可靠性 [18][20] - **数据标注**:采用“自动生成+人工修正”方案,利用大语言模型对长时域任务进行语义分割,为每条轨迹提供精细的自然语言注释,形成多模态对齐标注 [22][23] - **虚实融合**:配套发布高保真数字孪生资产与20K条模拟轨迹,模拟与真实任务在结构、物体配置上完全一致,支持虚实混合训练 [24][27] - **多样性设计**:涵盖形态、任务、物体、信息、模拟五大核心维度的多样性,远超现有数据集的单一维度覆盖 [26][28] MIND-2双系统框架设计 - **整体设计理念**:采用分层协作思路,高层慢系统负责语义级任务规划与进度监控,低层快系统负责感知-动作映射与精准执行 [30][31] - **高层规划系统**:基于开源VLM模型InternVL3-8B微调,输入多视角视觉、任务上下文与机器人状态,输出标准化的子任务索引与执行进度 [32][34][40] - **低层执行系统**:是一款视觉-语言-动作模型,采用离线强化学习范式,同时利用数据集中的成功与失败轨迹学习最优策略 [36][41] - **多模态融合**:输入融合多视角RGB-D视觉、语言指令、本体感受及触觉数据,通过统一特征编码器实现信息对齐 [37] - **协同机制**:高层系统监控状态并输出子任务指令,低层系统生成控制动作,子任务完成后自动触发下一个,支持多机器人异构协作 [38][42] 关键实验结果与分析 - **模仿学习算法对比**:3D感知类算法的成功率显著高于2D方法,在需要双臂空间协同的任务中优势明显,如DP3在固定场景任务中成功率可达0.5-0.8 [44][49] - **VLA模型对比**:跨形态模型XR-1在固定基座、移动平台、人形机器人上均保持高成功率,在6种平台任务评估中表现最优 [46][50] - **触觉数据的价值**:融入触觉反馈后,模型在接触密集型任务中成功率显著提升,例如XR-1在“堆叠易滑物体”任务中成功率从0.4提升至0.6 [52][53] - **虚实混合训练效果**:真实与模拟数据按1:5比例混合训练时模型性能最优,部分任务成功率甚至超越纯真实数据训练,能有效降低数据采集成本 [54] - **MIND-2系统性能**:在长时域移动操作任务中,MIND-2成功率显著高于现有VLA模型,其离线强化学习优化版本在超市协作任务中成功率达到0.9 [48][55] - **泛化能力验证**:模型展现出较强的物体级泛化能力,在颜色/形状替换任务中成功率保持0.7-0.8,训练数据的物体多样性是核心保障 [56][60] - **模拟数据集质量**:仅使用模拟数据训练的模型在真实机器人任务中成功率可达0.5-0.7,验证了模拟资产的高保真特性与虚实迁移效果 [57][60]