Workflow
ExploreVLM框架
icon
搜索文档
ExploreVLM:基于视觉-语言模型的闭环机器人探索任务规划框架
具身智能之心· 2025-08-20 08:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zhichen Lou等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 1. 交互式探索能力不足,难以处理需要主动获取信息的场景(如确定哪个抽屉只放水果); 2. 感知精度有限,对物体空间关系和动态变化的捕捉不够结构化; 3. 计划适应性差,多为开环静态规划,无法基于实时反馈调整,易在复杂环境中失败(figure 1)。 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与核心问题 随着具身智能的发展,机器人逐渐融入日常生活作为人类助手,这要求机器人能解读高层指令、感知动态环境并实时调整计划。视觉-语言模型(VLMs)因融合 视觉理解与语言推理能力,成为机器人任务规划的重要方向,但其现有方法在三方面存在明显局限: 为此,本文提出ExploreVLM框架,通过闭环设计整合感知、规划与执行验证,解决上述问题。 核心框架设计 ExploreVLM以"感知-规划-执行-验证"的闭环为核心,整体流程如下(figure 2): 关键模块解 ...