文章核心观点 - 提出一种名为VLA-Pilot的即插即用推理时策略引导方法,旨在解决预训练视觉语言动作模型在下游任务部署时出现的性能下降问题 [2] - 该方法无需额外微调或数据收集,即可实现预训练VLA模型的零样本部署,大幅降低了部署成本 [2] - VLA-Pilot通过结合多模态大型语言模型的开放世界推理能力和进化扩散算法的动作优化,提升了对多样化任务和机器人形态的稳健零样本泛化能力 [6] 现有问题分析 - 预训练VLA策略在下游部署过程中会出现显著的性能下降,而传统的微调方法依赖高昂的演示数据收集和密集型计算,在现实场景中不实用 [2] - 部署失败并不一定意味着预训练策略无法生成正确行为,而是由于运行时模式选择不当导致无法可靠执行 [4] - 现有的推理时引导方法存在局限性:其验证器需要额外训练且泛化能力有限,并且仅依赖从固定候选集中选择动作,在复杂任务中可能无法恢复成功行为 [5] 方法详解 - VLA-Pilot的核心是利用MLLM作为开放世界验证器以增强泛化能力,并采用进化扩散过程作为动作优化器以提高任务对齐度 [6] - 具身策略引导思维链模块将推理过程分解为四个交错阶段:引导目标确认、场景理解、具身增强和引导目标生成,最终输出非可微黑盒评分函数作为奖励 [11][12] - 进化扩散算法首先从预训练VLA策略采样动作候选,然后基于引导奖励迭代评估和变异候选集,通过结合扩散过程的多模态表达和进化搜索的黑盒优化来提升任务对齐度 [14][15][16][17] - 引入迭代引导优化机制实现闭环修正,通过反思步骤让MLLM作为自我批判者来优化引导奖励并生成引导成功指示器,提升引导精度和稳健性 [20][21] 实验对比分析 - 实验在双臂机器人系统上进行了评估,涵盖六个下游操作任务,包括四个简单单臂任务和两个复杂双臂操作任务,并设置了分布内和分布外两种场景 [23][26] - 在分布内任务中,VLA-Pilot结合DiVLA策略在整体任务上的平均操作成功率达到62%,显著高于基线方法DiVLA的31%和RDT-1B的30% [30] - 在分布外任务中,VLA-Pilot展现出稳健的泛化能力,整体平均成功率达到50%,远高于V-GPS的12%和FOREWARN的19% [31][32] - VLA-Pilot实现了与使用50个专家演示进行监督微调相当的性能,表明该方法能有效提取预训练模型中的潜在知识 [35]
港中文最新!无需微调即可部署VLA模型
具身智能之心·2025-11-20 12:02