空间指代

搜索文档
复杂空间指令也能秒懂?RoboRefer 让机器人理解推理空间,开放世界也能精准行动!
机器之心· 2025-07-06 14:06
机器人空间指代技术突破 - 现实环境复杂多变,机器人需应对杂乱无序、物体种类繁多的场景,远超实验室可控环境[2] - 空间指代任务要求机器人理解"最远""第二列""等间距"等空间关系,动态定位交互目标[3][5] - 当前多模态大模型难以准确理解三维场景并动态推理交互位置,存在单步空间理解和多步空间推理两大挑战[6] RoboRefer模型核心能力 - 采用全参数微调(SFT)实现89.6%空间理解成功率,强化学习微调(RFT)在RefSpatial-Bench基准上超越Gemini-2.5-Pro达17.4%[8][22] - 集成独立图像编码器和深度图编码器,支持定量(物体距离)和定性(方位判断)空间问答[12] - 突破性实现多空间关系组合推理,如准确定位"笔筒与键盘中间且水瓶logo正对"的位置[13] 技术创新路径 - SFT阶段引入深度编码器增强三维感知,RFT阶段采用GRPO强化学习结合过程奖励函数提升泛化能力[15][17] - 创新设计过程奖励函数监控中间推理质量,显著提升多步指代任务精度[17] - 模型可集成至UR5机械臂、G1仿人机器人等平台,实现真实场景精准执行[9] RefSpatial数据集特性 - 包含250万样本、2000万问答对,规模达同类数据集两倍[20] - 标注31种空间关系(行业最高15种),支持5步复杂推理链[20] - 覆盖室内外多场景,通过层级描述确保复杂环境下的表述清晰度[20] 性能基准对比 - RoboRefer-8B-SFT在CV-Bench达到98.33%准确率,显著领先GPT-4o(86.50%)和Gemini-2.5-Pro(91.00%)[21] - RGB-D输入模式下,2B-SFT版本在RoboSpatial任务取得82%成功率,超越专用模型SpatialBot-3B(63.33%)[21] - 在Where2Place基准上,RFT版本以71%准确率大幅领先Gemini-2.5-Pro(11.8%)[23]