CycleVLA：让 VLAs 具备“预判初期失败、回溯重试恢复”的能力

文章核心观点 - 文章介绍了一种名为CycleVLA的新型机器人视觉-语言-动作模型框架，其核心创新在于通过“进度感知-失败预判-回溯重试”的主动自纠正循环，解决了传统VLA模型在长序列任务中因缺乏进度感知和事后纠错机制而导致的错误累积与任务失败问题 [2][3] - 该框架通过三大核心模块（进度感知VLA、VLM驱动的失败预测与回溯、MBR解码的测试时缩放）协同工作，使机器人能够像人类一样在失败完全显现前进行预判和修正，显著提升了任务执行的成功率与鲁棒性，尤其在长视野任务和欠训练模型上效果突出 [3][9][10] CycleVLA的核心背景与动机 - 传统机器人执行任务采用“事后纠正”模式，失败后难以挽回，而人类的纠错方式是“主动预判”，在失败完全显现前介入修正 [2] - 现有视觉-语言-动作模型缺乏对子任务进度的感知能力，无法识别失败高发的子任务转换节点，且重试机制效率低下 [2] - CycleVLA旨在让VLA模型具备“预判初期失败、回溯重试恢复”的能力，以应对长视野任务和欠训练模型的性能短板 [2] 核心设计：三大模块构建主动自纠正循环 - 进度感知VLA：通过微调为模型增加“任务进度表”，将原始7维动作扩展为9维，新增停止信号和进度信号，使模型能实时输出子任务完成度，并在进度达到阈值（如0.9）时触发后续流程 [5][8] - VLM驱动的失败预测与回溯：在子任务接近完成时，引入现成的视觉语言模型作为零样本失败预测器和规划器，通过融合多视图信息判断失败概率，并决策是“继续执行”还是“回溯”到能修复问题的最早子任务 [9][14] - MBR解码的测试时缩放：在回溯重试时，采用基于最小贝叶斯风险的解码策略，从多个随机采样的候选动作序列中，选择与其他序列平均距离最小的“共识序列”作为执行方案，以提升重试成功率 [10][14] 实验与关键结果 - 任务性能：在LIBERO基准的四个任务套件中，CycleVLA平均成功率达95.3%，在失败易累积的Long套件中成功率达93.6%，远超传统方法如OpenVLA的53.7% [11][12][15] - 对欠训练模型的适配性：CycleVLA能显著提升欠训练模型的性能，例如，训练步数200K的模型加装CycleVLA后，平均成功率从73.2%提升至80.0%，接近350K步模型的原始性能 [20][21] - MBR解码的关键参数分析： - 假设数量（N）在增至16时性能达到饱和，继续增加收益递减 [22][23] - L2距离作为度量标准表现最优 [23][24] - 欠训练模型从MBR解码中获益更大，200K和350K模型成功率提升5.3%至11.9%，而500K全训练模型提升3.3%至5.3% [24] - 运行时效率：在A10 GPU上总运行时间增加约30%，其中动作执行是主要瓶颈（占比68.6%），MBR计算开销可忽略（<0.1%）；在A100 GPU上总运行时间降至76.9秒 [25][26] - 消融实验：证明了各核心组件的必要性，移除MBR解码成功率降至92.5%；替换为小型VLM导致性能下降；移除停止信号和过采样成功率降至91.1%；始终启用MBR虽能将成功率提升至96.9%，但运行时间大幅增加至464.3秒 [27][28][30] 关键发现与局限 - 核心发现： 1. 子任务进度感知与VLM失败预判的组合，能精准捕捉失败高发的转换节点，实现主动纠正 [31] 2. MBR解码是VLA有效的零样本测试时缩放策略，无需额外训练即可提升成功率，对欠训练模型友好 [31] 3. 扩展动作维度的微调方式轻量高效，无需重构VLA架构 [31] - 局限： 1. 回溯机制依赖“状态可逆”假设，在动态环境或不可逆操作中可能失效 [31] 2. MBR解码需要多次前向传播，对高控制频率的接触密集型任务，效率有优化空间 [31] 3. 实验暂基于仿真环境，真实机器人硬件的适配和验证需后续补充 [31]