DyNaVLM - 财报，业绩电话会，研报，新闻 - Reportify

DyNaVLM

搜索文档

上海交大最新！DyNaVLM：零样本、端到端导航框架

具身智能之心· 2025-06-22 18:56

出发点与优化目标 - 导航是自主智能体领域的基础能力，需要融合空间推理、实时决策和环境适应能力，但人工系统复现这一能力仍面临巨大挑战 [4] - 传统导航方法存在泛化性差、可扩展性不足和部署困难等问题，因其依赖模块化设计和特定任务工程 [4] - 视觉语言模型（VLM）为导航领域带来新思路，但受限于空间粒度和上下文推理能力不足 [4] - DyNaVLM提出零样本、端到端导航框架，无需微调或接触导航特定数据即可直接作为导航策略使用 [4] DyNaVLM核心创新点 - 动态动作空间构建：通过视觉语言推理实现自由形式目标选择，摒弃固定运动原语，提升运动灵活性和导航效率 [6] - 协作图记忆机制：受检索增强生成（RAG）启发，开发动态知识图捕捉空间关系和语义对象信息 [8] - 无需训练的部署模式：无需任务特定微调即可直接应用于新场景，降低部署成本并提高泛化能力 [8] 系统架构与方法 - 问题形式化定义：输入包括目标描述、RGB-D观测和机器人位姿，输出为动作，采用极坐标参数化动作空间 [11] - 记忆管理器：维护动态知识图，实现持久空间知识表示、跨机器人记忆共享和上下文感知记忆检索 [12][13] - 动作Proposer：采用基于候选的离散化策略，将连续搜索空间简化为有限均匀采样点集合 [14] - 动作Selector：综合几何候选点、感知上下文和记忆生成最终导航动作，包括空间采样和安全感知过滤 [14][16] 实验评估 - 模拟环境评估：在ObjectNav基准上取得45%成功率和0.232 SPL，优于PIVOT和VLMnav等框架 [19][22] - 真实世界评估：部署在Unitree Go2机器人上，在定位多个目标任务中成功率和行进距离显著优于VLMnav [25][27] - 协作图记忆机制在长且复杂导航任务中表现关键，帮助跟踪已访问位置并有效规划未来移动 [22]

视觉语言模型

视觉语言模型