文章核心观点 - 研究团队推出名为RoboTracer的多模态大模型,旨在解决具身机器人在复杂开放世界(如家庭环境)中理解和执行包含多步、带真实尺度约束的空间指令的难题[2][4][5] - 该模型通过创新的两阶段训练(SFT和RFT)及专用数据集TraceSpatial,在3D空间理解、度量和指代任务上达到先进水平,并能生成精确的3D空间轨迹以指导机器人动作,实现“开箱即用”[6][10][17] RoboTracer模型概述 - RoboTracer是一个具备三维空间理解与推理能力的多模态大模型,拥有独立的图片编码器和支持任意多几何输入(如绝对深度图、相机内参)的空间编码器[13] - 模型不仅能回答定性与定量的空间感知问题,还能进行复杂的组合式推理,最终生成精确的3D空间轨迹[13] - 模型可直接灵活集成到不同类型的机器人(如UR5机械臂、G1仿人机器人)上,在真实环境中完成复杂、动态、多步骤任务[10] 技术核心与创新 - 解耦(u, v, d)表达:采用图像像素(u, v)和深度d结合相机内参来换算真实3D坐标,降低了模型学习复杂相机几何的门槛,并增强了数据复用能力[15] - 通用空间编码器与尺度解码器:尺度解码器通过回归损失监督,将特征与真实世界绝对长度对应;通用空间编码器借助强几何先验,能按需融合不同几何信息,提升绝对尺度感知能力[16] - 两阶段训练策略:SFT阶段针对性提升单步3D空间理解、度量与指代能力;RFT阶段创新性地使用度量敏感过程奖励,显式监督轨迹生成中的关键中间步骤,从而增强多步、带真实尺度约束的推理能力[17] 性能表现与评测 - 空间理解/度量/指代任务:经过SFT训练的RoboTracer在相关任务中达到79.1%的平均成功率,比Gemini-2.5-Pro高出11%的平均准确率[10][21] - 空间轨迹生成任务:在TraceSpatial-Bench评测基准上,经过RFT训练的RoboTracer领先所有其他模型,比Gemini-2.5-Pro高出36%的平均准确率[10][24] - 仿真与真机实验:在机械臂仿真评测中,RoboTracer的总平均成功率达到64.0%,远超其他视觉-语言-动作系统;在真实世界机器人空间追踪任务中,其成功率(如60%和30%)也显著高于对比模型(如Open VLA和RoboRefer的0%)[27][28] TraceSpatial数据集 - 为支持SFT和RFT训练,研究团队构建了大规模、高质量、带真实尺度的TraceSpatial数据集[20] - 数据集核心特点包括:场景多样(覆盖室内外和桌面环境)、维度丰富(48.2%的数据与尺度相关,推理步骤最高达9步)、规模庞大(包含450万个样本和3000万个问答对,是目前最大的3D空间数据集)、精细标注(包含层级式物体描述和绝对尺度几何信息)以及易于扩展[22]
三维空间太难懂?RoboTracer让机器人理解复杂空间指令,推理3D空间轨迹,开放世界也能精确行动
机器之心·2025-12-30 20:10