Workflow
VOTE
icon
搜索文档
EmbodyX最新!VOTE:集成投票&优化加速VLA模型的通用框架,吞吐量加速35倍!
具身智能之心· 2025-07-13 17:48
具身智能与VLA模型优化 核心观点 - VOTE框架通过无分词器微调和集成投票策略显著提升VLA模型的推理速度(35倍加速)和泛化能力(成功率提升20%以上)[4][9][31] - 该方法摒弃传统扩散技术和额外视觉模块,采用单一<ACT> token压缩动作块表示,使边缘设备吞吐量达42Hz[9][21][31] - 在LIBERO和SimplerEnv基准测试中超越CogACT等SOTA模型,WidowX机器人任务平均成功率54.2%[28][32] 技术背景 - 现有VLA模型依赖动作分词器或扩散技术,导致CogACT延迟增加33.8%内存开销,SpatialVLA因多模态输入使token序列延长50%[7][11][13] - 传统方法在跨形态数据训练时需162K-200K轨迹数据,而VOTE通过LoRA微调(秩r=32)降低70K步训练成本[24][25] - 7自由度动作空间设计(平移+旋转+gripper状态)兼容多样化机器人控制需求[16] 创新架构 - 引入<ACT> token替代传统分词器,将ND个动作解码简化为1次MLP前向传播,A6000 GPU吞吐量达145Hz[18][19][21] - 动态投票集成策略基于余弦相似度(阈值τ=0.5)筛选历史动作,错误预测过滤效率提升40%[22][23] - 双token变体支持16动作块解码,NVIDIA Orin平台内存占用仅0.7%[31][32] 性能验证 - LIBERO测试中块大小8的单token方案最优,跨任务成功率超OpenVLA基准线15-25%[27][32] - SimplerEnv评估显示每帧3倍延迟优化,WidowX任务执行误差降低3% vs CogACT[28] - 消融实验证实block大小与吞吐量正相关,但单token8块配置保持精度优势[32]