通用动作分词器框架

搜索文档
VQ-VLA:大规模合成数据驱动动作tokenizer,推理速度提升近三倍
具身智能之心· 2025-07-02 18:18
视觉-语言-动作模型(VLA)的挑战与改进 - 动作表示效率低:传统连续动作离散化方法难以捕捉复杂时空动态,导致长时域任务中累积误差增大 [3][4] - 数据依赖瓶颈:真实机器人数据采集成本高,限制模型泛化能力 [3][4] 核心贡献 - 通用动作分词器框架:基于卷积残差VQ-VAE的框架替代传统分桶离散化方法 [4] - 合成数据驱动缩放:利用超大规模合成数据(100倍于先前工作)训练分词器,纯合成数据训练的VQ在真实任务接近混合数据性能 [4] - 性能全面优化:长时域任务成功率最高提升30%,动作执行频率从4.16Hz提升至11.84Hz [4][13] 关键技术方案 - 卷积残差VQ-VAE架构:采用2D时序卷积层替代传统MLP,LIBERO-10任务成功率提升6.6%(60.0% vs 53.4%) [7][8] - 残差量化:通过多阶段残差向量量化(RVQ)压缩动作序列 [10] - 渐进式训练策略:嵌入增强(时间嵌入和动作类型嵌入)使"翻正锅具"任务成功率提升5% [11][12] 关键实验发现 - 仿真环境(LIBERO):卷积残差VQ-VAE在LIBERO-10任务成功率60.0%,显著高于MLP版的53.4% [17] - 真实机器人(Franka Research 3):纯合成数据训练的VQ在真实任务表现接近混合数据版本,证实合成-真实域差距极小 [17] - 长时域任务:玩具放入抽屉任务成功率30.0% vs 基线5.0%,所有杯子放入篮子任务成功率50.0% vs 基线15.0% [17] 消融研究与未来方向 - 动作分块机制:VQ分块在LIBERO-90成功率86.61%,显著高于自回归分块的66.53% [19] - 嵌入层贡献:加入时空嵌入使LIBERO-90成功率提升0.99% [19] - 未来方向:整合更大规模合成数据集(如RLBench),结合蒸馏与量化技术进一步加速推理 [19]