ExploreVLM框架 - 财报，业绩电话会，研报，新闻

ExploreVLM框架

搜索文档

具身智能之心· 2025-08-20 08:03

研究背景与核心问题 - 具身智能发展推动机器人成为日常助手要求机器人具备高层指令解读动态环境感知和实时计划调整能力 [3] - 视觉-语言模型(VLMs)因融合视觉理解与语言推理能力成为机器人任务规划的重要方向 [3] - 现有VLMs方法存在三方面局限：交互式探索能力不足感知精度有限计划适应性差 [6] 核心框架设计 - ExploreVLM采用"感知-规划-执行-验证"闭环设计解决现有问题 [5] - 框架流程包括：场景感知模块提取目标中心空间关系图双阶段规划器生成探索和完成阶段子目标执行验证器生成反馈规划器动态调整计划 [6] 关键模块解析 - 目标中心空间关系图构建结构化场景表示：节点标注物体语义属性有向边表示物体间空间关系 [8] - 构建流程分两步：GroundedSAM2分割图像并标注物体类别 VLM推理空间关系将2D图像转化为语言可理解的3D空间结构 [9] - 双阶段自反思规划器分离"未知信息探索"与"目标达成"：探索阶段生成探索子目标及动作完成阶段生成达成最终目标的动作序列 [10][12] - 自反思机制通过链-of-thought推理修正计划解决LLM幻觉问题：验证目标有效性检查动作逻辑一致性处理障碍物 [10][12] - 执行验证器采用逐步验证机制：判断动作是否成功验证子目标是否达成若失败返回具体原因触发重新规划 [14][17] 实验验证 - 实验在真实机器人平台(UR5机械臂+Robotiq夹爪+Intel RealSense相机)进行设计5个递增复杂度任务 [15] - 平均成功率：ExploreVLM达94% 远超ReplanVLM的22%和VILA的30% [16][19] - 各任务成功率：Task1 100% Task2 100% Task3 100% Task4 90% Task5 80% [19] - 消融实验显示移除核心模块后性能大幅下降：无空间关系图成功率降至30% 无双阶段规划器降至10% 无执行验证器降至0% [19] 优势分析 - 空间关系图提升场景理解精度准确识别障碍物和物体 [21] - 双阶段规划解决探索性任务困境通过探索准确定位目标 [21] - 自反思修正逻辑错误避免不合理动作序列 [21] - 逐步验证增强抗噪声能力及时检测失败并重试 [21] 与传统方法对比 - 传统TAMP方法缺乏自然语言与视觉整合适应性有限 [22] - VILA直接用GPT-4V生成计划但缺乏结构化感知探索与执行脱节 [22] - ReplanVLM依赖阶段末反馈误差易累积 [22] - RoboExp需依赖先验物体知识探索步骤冗余 [22]