Workflow
让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
机器之心·2025-09-18 09:01

核心观点 - 论文提出了一种新的具身基础模型Nav-R1,旨在解决机器人在3D环境中结合感知、推理和行动的挑战,通过引入清晰的中间思考环节来提升导航性能[5] - 该模型的核心创新包括大规模推理轨迹数据集Nav-CoT-110K、三种互补的奖励机制以及受人类双系统理论启发的Fast-in-Slow推理范式[6][9][11] - 实验结果表明,Nav-R1在多个导航任务中相比先进方法成功率提升约8%或更多,并在真实机器人部署中表现出稳健性能[14][15][18] 技术架构与创新 - Nav-CoT-110K数据集包含约11万条Chain-of-Thought轨迹,每条轨迹包含任务描述、视觉输入、行动选项及格式化思考与动作输出,用于冷启动训练模型[6][8] - 三种奖励机制包括格式奖励(确保输出结构化)、理解奖励(鼓励语义理解)和导航奖励(优化路径合理性与终点精度),共同提升行为逻辑与精准度[13] - Fast-in-Slow推理范式借鉴人类双系统理论,Slow系统(低频)负责长期语义规划,Fast系统(高频)负责实时控制,两者异步协调兼顾目标一致性与环境响应速度[11][16] 性能表现 - 在视觉语言导航任务R2R-CE Val-Unseen中,Nav-R1的成功率(SR)达72.5%,路径效率(SPL)达68.8%,显著优于对比方法(如HNR的SR 61.0%)[15] - 在物体目标导航任务中,Nav-R1在真实环境(如会议室)的成功率指标(SR)达1.03,优于MTU3D的0.73,显示其强泛化能力[18] - 延迟优化后,Nav-R1在服务器端推理延迟约95毫秒,远低于本地推理方法(如Uni-NaVid的410毫秒),适合边缘设备近实时运行[19] 应用场景 - 服务机器人领域可受益于Nav-R1的结构化推理与路径精准性,提升家庭环境中杂乱场景的导航可靠性[29] - 医疗辅助场景中,模型对语义错误的理解与纠正能力可增强机器人在复杂环境(如医院)的安全性[30] - 工业危险环境(如矿井)需高泛化性与稳健性,Nav-R1可作为基础模块支持未知场景下的任务执行[32]