机器人需求驱动导航新SOTA，成功率提升15%！浙大&vivo联手打造

核心观点 - 浙江大学和vivo人工智能实验室团队开发了CogDDN框架，这是首个将心理学"双过程理论"应用于机器人需求驱动导航的系统，模拟人类认知机制以实现更灵活的决策能力[2][3] - CogDDN在AI2-THOR模拟器上的闭环实验中，导航成功率（NSR）比当前SOTA方法DDN提升15%，在未见场景中性能与依赖深度输入的InstructNav相当[12][28] - 该系统通过启发式过程（快速直觉决策）与分析过程（深度推理优化）的协同，实现了38.3%的NSR和17.2%的SPL，显著优于传统单视角方法[27][34] 技术架构双过程理论应用 - 启发式过程（系统1）依赖经验库进行快速决策，包含Explore（环境扫描）和Exploit（精准执行）模块，通过思维链（CoT）优化路径[19][20] - 分析过程（系统2）利用VLM预训练知识进行障碍反思，通过500个epoch的迭代训练将错误修正经验整合至知识库，使SPL指标持续提升[23][31][32] 模块设计 - 3D感知模块：采用UniMODE单目3D检测技术，仅需单视角图像即可精准定位物体，摆脱多传感器依赖[15] - 需求匹配模块：通过有监督微调（SFT）优化LLM，解决模糊指令下推荐偏差问题（如"放花"误推杯子），提升物体选择准确率[16] 性能表现基准测试 - 在ProcTHOR数据集400个场景中，CogDDN的NSR达38.3%（seen scene）和34.5%（unseen scene），较DDN的21.5%和16.1%实现跨越式提升[27][28] - 消融实验显示移除Exploit模块导致NSR下降至24.2%，去除CoT后SPL降低4.9个百分点，验证核心组件必要性[29][30] 跨场景适应性 - 在相同传感器输入条件下，CogDDN的SSR（选择成功率）达29.8%，远超CLIP-Nav-GPT（4.0%）等对比模型[27] - 反思机制使系统在连续训练中SPL增长曲线显著优于无反思版本，证明持续学习有效性[32] 行业意义 - 该技术突破传统导航对明确指令的依赖，使机器人能理解"我饿了"等抽象需求，适用于家庭服务、医疗护理等场景[6] - 双过程架构为具身智能领域提供新范式，其开源特性（项目主页已公布）可能加速行业技术迭代[33][35]