阿里新研究：统一了VLA和世界模型

技术框架与核心创新 - 提出WorldVLA，一个将视觉语言动作模型与世界模型相融合的统一自回归动作世界模型框架 [1][4] - 框架旨在解决VLA模型仅将动作作为输出而缺乏深度理解，以及世界模型无法直接生成动作的应用局限 [6] - 采用三套独立分词器对图像、文本和动作进行编码，图像分词器压缩比为16，码本大小为8192，256x256图像生成256个token，512x512图像生成1024个token [8] - 创新性地为动作生成设计了替代注意力掩码，使自回归框架能并行生成多个动作，避免早期错误传递 [11][12] 性能优势与实验结果 - 实验结果表明WorldVLA表现显著优于独立的动作模型与世界模型，体现了二者相互增强效应 [2] - 在未使用预训练的情况下，WorldVLA在基准测试中平均成功率优于离散化OpenVLA模型（256x256分辨率79.1% vs 76.5%，512x512分辨率81.8% vs 76.5%） [19][21] - 模型性能与图像分辨率呈正相关，512x512分辨率相比256x256分辨率带来显著提升（平均成功率从79.1%提升至81.8%） [21][22] - 引入世界模型数据训练后，动作模型在目标、物体、空间和长序列任务上的成功率从基线62.8%提升至78.1% [25] 协同效应与能力增强 - 世界模型通过预测未来图像学习环境物理规律，增强动作模型在精细操作任务中的能力 [14][25] - 动作模型通过增强视觉理解能力，反向支持世界模型的视觉生成质量，在生成50帧长视频时FVD指标从718.6改善至674.1 [17][31][32] - 动作世界模型在复杂场景生成中表现优于纯世界模型，能生成连贯且符合物理规律的后续状态 [32]