让机器人「不只是走路」，Nav-R1引领带推理的导航新时代

核心观点 - 论文提出了一种新的具身基础模型Nav-R1，旨在解决机器人在3D环境中结合感知、推理和行动的挑战，通过引入清晰的中间思考环节来提升导航性能[5] - 该模型的核心创新包括大规模推理轨迹数据集Nav-CoT-110K、三种互补的奖励机制以及受人类双系统理论启发的Fast-in-Slow推理范式[6][9][11] - 实验结果表明，Nav-R1在多个导航任务中相比先进方法成功率提升约8%或更多，并在真实机器人部署中表现出稳健性能[14][15][18] 技术架构与创新 - Nav-CoT-110K数据集包含约11万条Chain-of-Thought轨迹，每条轨迹包含任务描述、视觉输入、行动选项及格式化思考与动作输出，用于冷启动训练模型[6][8] - 三种奖励机制包括格式奖励（确保输出结构化）、理解奖励（鼓励语义理解）和导航奖励（优化路径合理性与终点精度），共同提升行为逻辑与精准度[13] - Fast-in-Slow推理范式借鉴人类双系统理论，Slow系统（低频）负责长期语义规划，Fast系统（高频）负责实时控制，两者异步协调兼顾目标一致性与环境响应速度[11][16] 性能表现 - 在视觉语言导航任务R2R-CE Val-Unseen中，Nav-R1的成功率（SR）达72.5%，路径效率（SPL）达68.8%，显著优于对比方法（如HNR的SR 61.0%）[15] - 在物体目标导航任务中，Nav-R1在真实环境（如会议室）的成功率指标（SR）达1.03，优于MTU3D的0.73，显示其强泛化能力[18] - 延迟优化后，Nav-R1在服务器端推理延迟约95毫秒，远低于本地推理方法（如Uni-NaVid的410毫秒），适合边缘设备近实时运行[19] 应用场景 - 服务机器人领域可受益于Nav-R1的结构化推理与路径精准性，提升家庭环境中杂乱场景的导航可靠性[29] - 医疗辅助场景中，模型对语义错误的理解与纠正能力可增强机器人在复杂环境（如医院）的安全性[30] - 工业危险环境（如矿井）需高泛化性与稳健性，Nav-R1可作为基础模块支持未知场景下的任务执行[32]