Workflow
CEED-VLA:实现VLA模型4倍推理加速,革命性一致性蒸馏与早退解码技术!
具身智能之心·2025-07-10 21:16

视觉语言动作模型(VLA)加速技术 - 提出CEED-VLA框架,通过Jacobi Decoding和Early-exit Decoding策略实现推理速度提升,最高达4.1倍加速比和执行频率4.3倍提升 [2][6][15] - 引入一致性蒸馏机制与混合标签监督方法,确保学生模型从中间状态准确预测动作,保留操作技能 [9][11][13] - 识别Jacobi解码迭代效率瓶颈,通过提前退出策略优化高频任务执行,保持成功率的同时减少冗余计算 [15][20] 模型架构与训练方法 - 框架基于预训练VLA模型(如LLaVA-VLA)生成训练数据,结合一致性损失(KL散度)和自回归损失进行联合优化 [6][12][14] - 混合标签监督动态调整样本标签,对偏差较大样本采用真实标签,提升模型鲁棒性 [13][19] - 消融实验显示混合标签方案速度提升2倍,平均预测长度3.67,优于纯教师模型或真实标签方案 [19][21] 性能评估结果 - 在CALVIN基准测试中,CEED-VLA固定token数达13.5,速度提升2倍,显著优于PD-VLA(8.75 token,1.33倍)和基线模型 [20] - 真实世界任务(如叠毛巾)成功率超70%,机械臂动作连续性优于LLaVA-VLA,后者因低频控制常出现抓取失败 [30][31] - LIBERO LONG基准测试显示,模型在长序列任务中保持高效执行,任务完成率与推理速度同步优化 [22][23] 技术对比与创新 - Jacobi解码并行输出token但收敛条件严格,Early-exit策略通过预设步数提前输出,利用后期token变化微小特性提升效率 [15] - 一致性训练使中间点收敛至固定点,KL散度约束分布差异,自回归损失继承教师模型能力 [9][12][14] - 开源代码与Arxiv论文提供完整实现细节,包括轨迹收集、蒸馏流程和解码优化 [4][6]