Workflow
让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
具身智能之心·2025-09-19 08:03

文章核心观点 - 提出一种名为Nav-R1的新型具身智能基础模型,旨在解决机器人在3D环境中结合感知、推理和行动的核心挑战 [5] - 该模型通过引入大规模推理链数据集Nav-CoT-110K进行冷启动训练,并采用Fast-in-Slow双系统推理范式,显著提升了导航任务的成功率和路径效率 [6][11][14] - 在模拟环境和真实机器人部署的实验中,Nav-R1在多项导航基准测试中的关键指标(如成功率SR和路径效率SPL)相比其他先进方法提升了约8%或更多 [14][17] Nav-R1核心创新 - Nav-CoT-110K数据集:构建了包含约11万条Chain-of-Thought推理链轨迹的大规模数据集,用于模型的监督训练阶段,使其在强化学习优化前就具备稳定的推理与行动基础 [6][8] - 三种奖励机制:设计了格式奖励、理解奖励和导航奖励,分别确保模型输出结构化、语义理解正确以及路径合理高效 [10][15] - Fast-in-Slow推理范式:借鉴人类双系统理论,Slow系统(System-2)负责低频、宏观的语义规划和长期目标制定,Fast系统(System-1)负责高频、即时的动作控制和避障,两者异步协调 [11][13][16] 实验性能与效果 - 视觉-语言导航任务:在R2R-CE Val-Unseen基准上,Nav-R1的成功率(SR)达到74.1%,路径效率(SPL)达到68.8%,显著优于对比方法 [17] - 物体目标导航任务:在ObjectNav任务中,Nav-R1在真实环境(如会议室、休息室、走廊)的成功率指标(SR)分别达到1.03、1.12和1.02,表现优于其他方法 [19] - 实时性能:通过云端推理与本地执行结合的架构,Nav-R1在服务器端的推理延迟约为95毫秒,优于仅在本地推理的方法,适合在资源受限的边缘设备上近实时运行 [19][20] 应用场景 - 服务与家庭机器人:适用于家庭等杂乱环境,能提升机器人穿行、找物及与人交互时的理解能力和执行体验 [31] - 助老与医疗辅助:在医院、养老院等复杂环境中,能提供安全、可靠的导航服务,并具备语义理解与错误纠正能力 [32] - 增强现实与虚拟现实:可为AR/VR中的虚拟智能体提供基于物理环境的导航和指路能力 [33] - 工业与危险环境:其泛化能力和稳健性使其可作为在工厂、矿井或灾害现场执行任务的机器人的基础模块 [34]