CogDDN

搜索文档
机器人需求驱动导航新SOTA,成功率提升15%!浙大&vivo联手打造
具身智能之心· 2025-07-22 14:29
核心观点 - 浙江大学和vivo人工智能实验室团队开发了CogDDN框架,这是首个将心理学"双过程理论"应用于机器人需求驱动导航的系统,模拟人类认知机制以实现更灵活的决策能力[2][3] - CogDDN在AI2-THOR模拟器上的闭环实验中,导航成功率(NSR)比当前SOTA方法DDN提升15%,在未见场景中性能与依赖深度输入的InstructNav相当[12][28] - 该系统通过启发式过程(快速直觉决策)与分析过程(深度推理优化)的协同,实现了38.3%的NSR和17.2%的SPL,显著优于传统单视角方法[27][34] 技术架构 双过程理论应用 - 启发式过程(系统1)依赖经验库进行快速决策,包含Explore(环境扫描)和Exploit(精准执行)模块,通过思维链(CoT)优化路径[19][20] - 分析过程(系统2)利用VLM预训练知识进行障碍反思,通过500个epoch的迭代训练将错误修正经验整合至知识库,使SPL指标持续提升[23][31][32] 模块设计 - **3D感知模块**:采用UniMODE单目3D检测技术,仅需单视角图像即可精准定位物体,摆脱多传感器依赖[15] - **需求匹配模块**:通过有监督微调(SFT)优化LLM,解决模糊指令下推荐偏差问题(如"放花"误推杯子),提升物体选择准确率[16] 性能表现 基准测试 - 在ProcTHOR数据集400个场景中,CogDDN的NSR达38.3%(seen scene)和34.5%(unseen scene),较DDN的21.5%和16.1%实现跨越式提升[27][28] - 消融实验显示移除Exploit模块导致NSR下降至24.2%,去除CoT后SPL降低4.9个百分点,验证核心组件必要性[29][30] 跨场景适应性 - 在相同传感器输入条件下,CogDDN的SSR(选择成功率)达29.8%,远超CLIP-Nav-GPT(4.0%)等对比模型[27] - 反思机制使系统在连续训练中SPL增长曲线显著优于无反思版本,证明持续学习有效性[32] 行业意义 - 该技术突破传统导航对明确指令的依赖,使机器人能理解"我饿了"等抽象需求,适用于家庭服务、医疗护理等场景[6] - 双过程架构为具身智能领域提供新范式,其开源特性(项目主页已公布)可能加速行业技术迭代[33][35]
机器人需求驱动导航新SOTA,成功率提升15%!浙大&vivo联手打造
量子位· 2025-07-21 12:23
研究背景与动机 - 移动机器人逐渐应用于家庭、医院、仓库等场景,需具备理解人类需求的能力而非仅执行指令[5] - 传统导航方法依赖大量数据训练,难以应对陌生环境或模糊指令[6] - 研究团队受人类"双过程理论"启发,提出结合直觉式决策与深度推理的导航框架[6][7] CogDDN框架设计 - 首个模拟人类认知机制的需求驱动导航系统,基于视觉语言模型(VLM)构建[8] - 双过程决策模块:启发式过程(系统1)快速响应,分析过程(系统2)深度优化策略[8][9] - 3D感知模块采用UniMODE单目检测技术,无需多视角或深度传感器[15] - 需求匹配模块通过有监督微调(SFT)提升LLM的物体推荐精准度[16] 技术实现细节 - 启发式过程包含Explore(环境扫描)和Exploit(目标达成)模块,利用思维链(CoT)优化路径[19] - 分析过程通过VLM预训练知识进行障碍反思,积累经验至知识库实现持续学习[23][24] - 闭环实验中知识库支持经验迁移,启发式过程微调后决策效率提升15%[12] 性能验证结果 - 在AI2-THOR模拟器的400个场景测试中,CogDDN导航成功率(NSR)达38.3%,较基线DDN提升15%[27] - 与采用深度输入的InstructNav相比,在未见场景中NSR指标相当(34.5% vs 30.0%)[28] - 消融实验显示移除Exploit模块导致NSR下降10.3个百分点,去除CoT后SPL降低5.6点[29][30] - 反思机制使系统训练500轮后SPL显著提升,验证持续学习有效性[31][32] 应用价值 - 系统可无缝集成至现有机器人平台,在动态环境中实现灵活决策[34] - 双过程协同机制为智能机器人技术发展奠定基础,尤其在需求驱动导航领域[35]