Workflow
Spec-VLA:首个专为VLA推理加速设计的推测解码框架
具身智能之心·2025-08-03 00:02

研究背景与动机 - 视觉-语言-动作(VLA)模型通过预训练视觉编码器或视觉语言模型(VLMs)在机器人动作生成任务中取得显著进展,例如OpenVLA等模型展现出高泛化性 [3] - VLA模型面临两大核心挑战:backbone VLMs参数规模庞大导致计算需求激增,以及自回归(AR)解码策略增加解码延迟 [3] - 现有加速方法存在局限,如模型架构重构或任务特定优化需大量资源,早期退出和雅可比解码等方法迁移到VLA时效果有限 [3] - 推测解码(SD)作为无损加速方案,在LLM中证明有效,但直接应用到VLA仅能带来微小速度提升,亟需针对性设计适配VLA的推测解码框架 [3] 核心框架:Spec-VLA - Spec-VLA是首个专为VLA推理加速设计的推测解码框架,核心是引入draft模型与验证模型的协同机制 [4] - draft模型基于融合的文本和视觉特征,通过自回归解码预测动作token,验证阶段采用松弛接受机制保证动作生成成功率 [4] - draft模型采用Llama解码器层,融合特征级和token级损失数据,接收验证模型的隐藏状态、文本嵌入及视觉嵌入 [5] - 验证模型(如OpenVLA)对draft模型生成的多路径token进行并行验证,确保生成质量 [5] 关键机制:松弛接受 - Spec-VLA提出基于动作token相对距离的松弛接受机制,定义松弛阈值量化draft动作token与验证模型预测token的允许距离 [7] - 当两者距离不超过阈值时接受draft token,否则以验证模型预测结果替换并终止后续token验证 [7] - VLA模型将连续动作维度离散为256个bins,映射为256个动作token,token间距离可通过bin ID的绝对差直接计算,几乎无计算开销 [7] 实验验证 - 在LIBERO模拟基准的四个任务集上评估,以微调后的OpenVLA作为验证模型,再生数据集训练draft模型,每个任务进行50次测试 [9] - 直接应用Eagle框架的加速比为1.08×-1.15×,引入松弛接受后加速比提升至1.22×-1.42×,接受长度从2.10提升至2.94,增幅达25%-44% [10] - 松弛阈值增大时接受长度显著提升(各数据集增幅50%-70%),成功率保持稳定,模型性能越好可容忍的松弛阈值越大 [11] - 案例分析显示松弛条件可减少迭代次数,如"将盘子推到炉子前"任务中非松弛条件需4-5次迭代,松弛条件仅需2-3次 [13] - 松弛接受条件下长序列占比显著提升,如LIBERO-Object中长度4的占比从0.56%增至6.22%,增幅11倍 [14] 结论与局限 - Spec-VLA通过适配VLA模型并引入松弛接受机制,实现1.42×的加速,接受长度提升44% [16] - 局限在于实验未在真实世界机器人场景中开展,受验证模型限制未探索动作分块策略 [16]