华为诺亚VLM长程具身导航: 全局-自记忆映射与3大记忆模块解析
理想TOP2·2025-04-23 21:34
以下文章来源于深蓝具身智能 ,作者深蓝学院-具身君 深蓝具身智能 . 深蓝学院旗下专注于具身智能与大模型的资讯与干货分享 "智能体不应被语言或视角束缚, 记忆与感知的融合才是自由导航的钥匙" 介绍本文具体工作前,先一起回顾一下 现有VLN的分类,如表1所示,大致分为 三类 :基于大语言模型(LLM)的导航、基于价值地图的导航和基于 视觉语言模型(VLM)的导航。 | सेंड | 说明 | 方法 | 优点 | 缺点 | | --- | --- | --- | --- | --- | | 基于LLM的 导航 | 构建全局记忆地 图,用自然语言 | LFG | 维护全局地 | 缺乏高维语义信 息, 削弱空间推理 | | | 描述候选目标点 | VoroNav | 图,使用高 | | | | | ESC | | 能力 | | | 位置,使用LLM生 成行动决策 | OpenIMNav | 级推理 | | | 基于价值地 | 根据自我视角观 察计算全局价值 | VLFM | 解决长时导 | 价值地图基于局部 观察,缺乏全局视 | | 图的导航 | 函数,根据生成 | InstructNav | 航的记忆遗 | 角,导 ...