VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!
机器之心·2025-07-13 12:58
视觉-语言-动作(VLA)模型研究进展 - 视觉-语言-动作(VLA)模型因多模态理解与泛化能力成为机器人领域重要研究方向 但高频率和精细操作任务中仍受推理速度瓶颈制约[2] - Jacobi解码虽能提升推理效率 但因需要较多迭代次数 实际加速效果有限[3] CEED-VLA核心技术突破 - 采用一致性蒸馏训练策略 使模型单次迭代可预测多个正确动作token 结合混合标签监督机制缓解误差积累[4][9] - 提出早期退出(early-exit)解码策略 放宽Jacobi解码收敛条件 实现4.1倍推理加速与4.3倍解码频率提升[5][10] - 框架通过预训练VLA模型生成Jacobi轨迹数据集 采用KL散度构建一致性损失 混合使用教师模型与真实数据监督训练[13][15][16] 实验验证效果 - 在CALVIN ABC-D和LIBERO-Long基准测试中 保持任务成功率同时实现4倍以上推理速度与执行频率提升[18] - 真实世界实验中 机械臂操作频率提升使灵巧任务成功率超过70% 显著优于基线模型[22][24] 方法论创新点 - 首创结合一致性蒸馏与混合标签监督的训练范式 同步保障动作生成精度与速度[8][9] - 首次发现Jacobi解码存在低效迭代瓶颈 通过动态调整收敛条件实现解码效率突破[10][17] - 构建完整技术闭环:从Jacobi轨迹采集、一致性训练到早期退出解码的全流程优化[13][14]