核心观点 - 浙江大学和vivo人工智能实验室团队开发了CogDDN框架,这是首个将心理学"双过程理论"应用于机器人需求驱动导航的系统,模拟人类认知机制以实现更灵活的决策能力[2][3] - CogDDN在AI2-THOR模拟器上的闭环实验中,导航成功率(NSR)比当前SOTA方法DDN提升15%,在未见场景中性能与依赖深度输入的InstructNav相当[12][28] - 该系统通过启发式过程(快速直觉决策)与分析过程(深度推理优化)的协同,实现了38.3%的NSR和17.2%的SPL,显著优于传统单视角方法[27][34] 技术架构 双过程理论应用 - 启发式过程(系统1)依赖经验库进行快速决策,包含Explore(环境扫描)和Exploit(精准执行)模块,通过思维链(CoT)优化路径[19][20] - 分析过程(系统2)利用VLM预训练知识进行障碍反思,通过500个epoch的迭代训练将错误修正经验整合至知识库,使SPL指标持续提升[23][31][32] 模块设计 - 3D感知模块:采用UniMODE单目3D检测技术,仅需单视角图像即可精准定位物体,摆脱多传感器依赖[15] - 需求匹配模块:通过有监督微调(SFT)优化LLM,解决模糊指令下推荐偏差问题(如"放花"误推杯子),提升物体选择准确率[16] 性能表现 基准测试 - 在ProcTHOR数据集400个场景中,CogDDN的NSR达38.3%(seen scene)和34.5%(unseen scene),较DDN的21.5%和16.1%实现跨越式提升[27][28] - 消融实验显示移除Exploit模块导致NSR下降至24.2%,去除CoT后SPL降低4.9个百分点,验证核心组件必要性[29][30] 跨场景适应性 - 在相同传感器输入条件下,CogDDN的SSR(选择成功率)达29.8%,远超CLIP-Nav-GPT(4.0%)等对比模型[27] - 反思机制使系统在连续训练中SPL增长曲线显著优于无反思版本,证明持续学习有效性[32] 行业意义 - 该技术突破传统导航对明确指令的依赖,使机器人能理解"我饿了"等抽象需求,适用于家庭服务、医疗护理等场景[6] - 双过程架构为具身智能领域提供新范式,其开源特性(项目主页已公布)可能加速行业技术迭代[33][35]
机器人需求驱动导航新SOTA,成功率提升15%!浙大&vivo联手打造
具身智能之心·2025-07-22 14:29