Workflow
SelfReVision框架
icon
搜索文档
让 VLMs 更适配机器人:小型VLMs也能展现出强大的视觉规划能力
具身智能之心· 2025-07-15 21:49
研究背景 - 大语言模型(LLMs)在机器人程序规划中展现出潜力,能生成符合人类直觉的分步动作序列,但缺乏机器人执行所需的精确感官或物理世界细节[3] - 视觉语言模型(VLMs)为生成更具感知接地性的计划提供可能,但现有方法存在仿真环境过度专门化或训练成本高的局限[3] - 小型VLMs若训练得当,可在教育、机器人技术等资源受限场景中展现出强大的视觉规划能力[3] 核心方法 - 提出SelfReVision框架,通过迭代自我批判和自我改进提升小型VLMs(3B-72B参数)的视觉语言程序规划能力[4] - 框架基于自蒸馏原则,无需外部监督或教师模型,通过三阶段循环(批判-修订-验证)优化计划[6][10] - 最终计划可直接用于推理或作为自监督数据微调模型,在灵活性与性能间实现权衡[9] 实验设置 - 评估数据集包括基于图像的PLACES数据集(100个真实场景)和修改后的MFE-ETP仿真数据集(100个虚拟场景)[14] - 新增Image Groundedness指标评估计划与视觉上下文的契合度,采用GPT-4o作为自动评估器,与人类标注一致性达0.52[12] - 基线对比包括初始计划、GPT-4o、PaliGemma领域特定模型和best-of-N算法[12] 主要结果 - SelfReVision在PLACES和SIMULATION数据集平均胜率分别达68%和72%,完整性和覆盖度提升常超80%[13] - 12B以上模型整体增益达74%,优化轮次增加使胜率从75-78%升至81%,多数改进出现在前2-3轮[16] - 相较best-of-N方法,SelfReVision在多数设置中提升60%,12B以上模型胜率比GPT-4o高25%[17] 实体代理任务应用 - 在仿真拾取放置任务中,Gemma 12B和27B模型分别提升26%和17%的成功率[21] - 真实世界场景中,SelfReVision计划使HAMSTER动作模型生成的成功轨迹达70%,高于基础模型的61%[21] - 通过新增必要步骤和移除错误步骤显著提升复杂任务的执行可靠性[21] 方法优势与局限 - 完整CRV流程性能最强,消融实验中Verify步骤被证明对过滤次优修订至关重要(PLACES数据集胜率差9 3%)[18][19] - 推理成本较高,平均每个样本需8个推理步骤,可能影响实时应用[22] - 当前仅整合视觉输入,未利用机器人本体感受等多模态信息,限制场景适应性[22]