首次！世界模型、动作模型融合，全自回归模型WorldVLA来了

核心观点 - 阿里巴巴达摩院提出WorldVLA模型，首次将世界模型和动作模型融合到一个全自回归模型中，实现文本、图片、动作的统一理解和生成 [1][5] - WorldVLA通过双向增强机制，既提升动作生成的准确性，也增强图像预测的质量 [7] - 在LIBERO基准测试中，WorldVLA抓取成功率提升4%，视频生成质量FVD指标降低10% [8] 模型架构 - 使用三个独立编码器分别处理图像、文本和动作数据，不同模态token共享相同词表 [5] - 世界模型部分通过输入动作生成视觉表示，学习环境物理动态规律 [7] - 动作模型部分增强对视觉信息的理解，提升世界模型的图像生成准确性 [7] 技术创新 - 提出动作注意力掩码策略，解决自回归模型中动作生成误差累积问题 [7] - 该策略在动作分块生成任务中使抓取成功率提升4%到23% [8] - 在未预训练情况下，WorldVLA超越需要预训练的全自回归模型OpenVLA [17] 实验结果 - 在LIBERO基准测试中，256256版本平均成功率79.1%，512512版本提升至81.8% [18] - 消融实验显示加入世界模型可使动作模型平均成功率从62.8%提升至67.2% [19] - 采用注意力掩码策略后，动作模型平均成功率从54.0%大幅提升至76.6% [19] 应用展示 - 可根据指令完成对应动作 [20] - 能够根据当前帧图片和动作生成下一帧图片 [24]