WorldVLA功能与定义 - WorldVLA是一种将视觉-语言-动作(VLA)模型与世界模型结合的自回归动作世界模型,通过集成动作生成与图像理解预测未来状态,学习环境物理规律以优化动作生成[4] - 模型采用注意力掩码策略解决自回归动作生成中的误差传播问题,在动作块生成任务中抓取成功率提升4%-23%[4][8] - 实验显示WorldVLA抓取成功率比独立动作模型高4%,视频生成能力优于普通世界模型,Fréchet视频距离降低10%[8] VLA模型与行业技术瓶颈 - 当前VLA模型依赖多模态大语言模型(MLLM)生成动作,但动作仅作为输出未被深度集成分析,缺乏对动作动态的理解[6] - 世界模型虽能预测未来视觉状态,但无法直接生成动作输出,限制其在需显式动作规划场景的应用[6] - 行业需解决动作泛化能力不足问题,基础MLLM在动作领域表现弱于图像文本领域[19] 模型架构与技术方案 - 采用三模态tokenizer(图像/文本/动作)共享词汇表,图像tokenizer压缩比16,codebook大小8192,256×256图像生成256个token[15] - 动作表示为7个token(3位置+3角度+1抓取器状态),文本tokenizer词汇量65,536含8192图像token和256动作token[15] - 训练策略混合动作模型数据(交叉熵损失)与世界模型数据(α=0.04平衡损失),实现双向增强[16][22] 实验验证与性能表现 - 在LIBERO基准测试中,512×512分辨率模型平均抓取成功率87.8%,超越离散对比模型(79.1%)[27][28] - 世界模型组件使动作模型成功率从62.8%提升至78.1%,动作模型帮助世界模型降低长视频生成FVD指标[29][30][36] - 两帧历史图像输入为最优配置,平衡计算效率与任务成功率(76.6% vs 单帧54.0%)[33] 创新方法与行业价值 - 首创自回归动作世界模型统一框架,实现动作预测与世界状态预测的联合优化[9][12] - 注意力掩码机制突破传统自回归限制,使动作生成独立依赖视觉输入而非历史动作,缓解误差累积[19][20] - 技术方案为机器人灵巧操作提供新范式,预训练世界模型可增强特定任务性能[34][36]
WorldVLA:世界模型实现视觉-动作双向增强,抓取精度显著提升
自动驾驶之心·2025-07-01 12:04