SelfReVision框架 - 财报，业绩电话会，研报，新闻

SelfReVision框架

搜索文档

具身智能之心· 2025-07-15 21:49

研究背景 - 大语言模型（LLMs）在机器人程序规划中展现出潜力，能生成符合人类直觉的分步动作序列，但缺乏机器人执行所需的精确感官或物理世界细节[3] - 视觉语言模型（VLMs）为生成更具感知接地性的计划提供可能，但现有方法存在仿真环境过度专门化或训练成本高的局限[3] - 小型VLMs若训练得当，可在教育、机器人技术等资源受限场景中展现出强大的视觉规划能力[3] 核心方法 - 提出SelfReVision框架，通过迭代自我批判和自我改进提升小型VLMs（3B-72B参数）的视觉语言程序规划能力[4] - 框架基于自蒸馏原则，无需外部监督或教师模型，通过三阶段循环（批判-修订-验证）优化计划[6][10] - 最终计划可直接用于推理或作为自监督数据微调模型，在灵活性与性能间实现权衡[9] 实验设置 - 评估数据集包括基于图像的PLACES数据集（100个真实场景）和修改后的MFE-ETP仿真数据集（100个虚拟场景）[14] - 新增Image Groundedness指标评估计划与视觉上下文的契合度，采用GPT-4o作为自动评估器，与人类标注一致性达0.52[12] - 基线对比包括初始计划、GPT-4o、PaliGemma领域特定模型和best-of-N算法[12] 主要结果 - SelfReVision在PLACES和SIMULATION数据集平均胜率分别达68%和72%，完整性和覆盖度提升常超80%[13] - 12B以上模型整体增益达74%，优化轮次增加使胜率从75-78%升至81%，多数改进出现在前2-3轮[16] - 相较best-of-N方法，SelfReVision在多数设置中提升60%，12B以上模型胜率比GPT-4o高25%[17] 实体代理任务应用 - 在仿真拾取放置任务中，Gemma 12B和27B模型分别提升26%和17%的成功率[21] - 真实世界场景中，SelfReVision计划使HAMSTER动作模型生成的成功轨迹达70%，高于基础模型的61%[21] - 通过新增必要步骤和移除错误步骤显著提升复杂任务的执行可靠性[21] 方法优势与局限 - 完整CRV流程性能最强，消融实验中Verify步骤被证明对过滤次优修订至关重要（PLACES数据集胜率差9 3%）[18][19] - 推理成本较高，平均每个样本需8个推理步骤，可能影响实时应用[22] - 当前仅整合视觉输入，未利用机器人本体感受等多模态信息，限制场景适应性[22]