CEED-VLA：实现VLA模型4倍推理加速，革命性一致性蒸馏与早退解码技术！

视觉语言动作模型（VLA）加速技术 - 提出CEED-VLA框架，通过Jacobi Decoding和Early-exit Decoding策略实现推理速度提升，最高达4.1倍加速比和执行频率4.3倍提升 [2][6][15] - 引入一致性蒸馏机制与混合标签监督方法，确保学生模型从中间状态准确预测动作，保留操作技能 [9][11][13] - 识别Jacobi解码迭代效率瓶颈，通过提前退出策略优化高频任务执行，保持成功率的同时减少冗余计算 [15][20] 模型架构与训练方法 - 框架基于预训练VLA模型（如LLaVA-VLA）生成训练数据，结合一致性损失（KL散度）和自回归损失进行联合优化 [6][12][14] - 混合标签监督动态调整样本标签，对偏差较大样本采用真实标签，提升模型鲁棒性 [13][19] - 消融实验显示混合标签方案速度提升2倍，平均预测长度3.67，优于纯教师模型或真实标签方案 [19][21] 性能评估结果 - 在CALVIN基准测试中，CEED-VLA固定token数达13.5，速度提升2倍，显著优于PD-VLA（8.75 token，1.33倍）和基线模型 [20] - 真实世界任务（如叠毛巾）成功率超70%，机械臂动作连续性优于LLaVA-VLA，后者因低频控制常出现抓取失败 [30][31] - LIBERO LONG基准测试显示，模型在长序列任务中保持高效执行，任务完成率与推理速度同步优化 [22][23] 技术对比与创新 - Jacobi解码并行输出token但收敛条件严格，Early-exit策略通过预设步数提前输出，利用后期token变化微小特性提升效率 [15] - 一致性训练使中间点收敛至固定点，KL散度约束分布差异，自回归损失继承教师模型能力 [9][12][14] - 开源代码与Arxiv论文提供完整实现细节，包括轨迹收集、蒸馏流程和解码优化 [4][6]