研究背景与动机 - 移动机器人逐渐应用于家庭、医院、仓库等场景,需具备理解人类需求的能力而非仅执行指令[5] - 传统导航方法依赖大量数据训练,难以应对陌生环境或模糊指令[6] - 研究团队受人类"双过程理论"启发,提出结合直觉式决策与深度推理的导航框架[6][7] CogDDN框架设计 - 首个模拟人类认知机制的需求驱动导航系统,基于视觉语言模型(VLM)构建[8] - 双过程决策模块:启发式过程(系统1)快速响应,分析过程(系统2)深度优化策略[8][9] - 3D感知模块采用UniMODE单目检测技术,无需多视角或深度传感器[15] - 需求匹配模块通过有监督微调(SFT)提升LLM的物体推荐精准度[16] 技术实现细节 - 启发式过程包含Explore(环境扫描)和Exploit(目标达成)模块,利用思维链(CoT)优化路径[19] - 分析过程通过VLM预训练知识进行障碍反思,积累经验至知识库实现持续学习[23][24] - 闭环实验中知识库支持经验迁移,启发式过程微调后决策效率提升15%[12] 性能验证结果 - 在AI2-THOR模拟器的400个场景测试中,CogDDN导航成功率(NSR)达38.3%,较基线DDN提升15%[27] - 与采用深度输入的InstructNav相比,在未见场景中NSR指标相当(34.5% vs 30.0%)[28] - 消融实验显示移除Exploit模块导致NSR下降10.3个百分点,去除CoT后SPL降低5.6点[29][30] - 反思机制使系统训练500轮后SPL显著提升,验证持续学习有效性[31][32] 应用价值 - 系统可无缝集成至现有机器人平台,在动态环境中实现灵活决策[34] - 双过程协同机制为智能机器人技术发展奠定基础,尤其在需求驱动导航领域[35]
机器人需求驱动导航新SOTA,成功率提升15%!浙大&vivo联手打造
量子位·2025-07-21 12:23