Workflow
DyNaVLM
icon
搜索文档
上海交大最新!DyNaVLM:零样本、端到端导航框架
具身智能之心· 2025-06-22 18:56
出发点与优化目标 - 导航是自主智能体领域的基础能力,需要融合空间推理、实时决策和环境适应能力,但人工系统复现这一能力仍面临巨大挑战 [4] - 传统导航方法存在泛化性差、可扩展性不足和部署困难等问题,因其依赖模块化设计和特定任务工程 [4] - 视觉语言模型(VLM)为导航领域带来新思路,但受限于空间粒度和上下文推理能力不足 [4] - DyNaVLM提出零样本、端到端导航框架,无需微调或接触导航特定数据即可直接作为导航策略使用 [4] DyNaVLM核心创新点 - 动态动作空间构建:通过视觉语言推理实现自由形式目标选择,摒弃固定运动原语,提升运动灵活性和导航效率 [6] - 协作图记忆机制:受检索增强生成(RAG)启发,开发动态知识图捕捉空间关系和语义对象信息 [8] - 无需训练的部署模式:无需任务特定微调即可直接应用于新场景,降低部署成本并提高泛化能力 [8] 系统架构与方法 - 问题形式化定义:输入包括目标描述、RGB-D观测和机器人位姿,输出为动作,采用极坐标参数化动作空间 [11] - 记忆管理器:维护动态知识图,实现持久空间知识表示、跨机器人记忆共享和上下文感知记忆检索 [12][13] - 动作Proposer:采用基于候选的离散化策略,将连续搜索空间简化为有限均匀采样点集合 [14] - 动作Selector:综合几何候选点、感知上下文和记忆生成最终导航动作,包括空间采样和安全感知过滤 [14][16] 实验评估 - 模拟环境评估:在ObjectNav基准上取得45%成功率和0.232 SPL,优于PIVOT和VLMnav等框架 [19][22] - 真实世界评估:部署在Unitree Go2机器人上,在定位多个目标任务中成功率和行进距离显著优于VLMnav [25][27] - 协作图记忆机制在长且复杂导航任务中表现关键,帮助跟踪已访问位置并有效规划未来移动 [22]