阿里新研究：一统VLA和世界模型

WorldVLA框架概述 - 核心创新是将视觉语言动作模型与世界模型融合的统一框架，由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出[2] - 该自回归动作世界模型通过结合动作与图像理解来预测未来图像，同时基于图像观测生成后续动作[5][6] - 实验结果显示其表现显著优于独立的动作模型与世界模型，体现二者相互增强效应[3] 技术架构设计 - 基于Chameleon模型初始化，采用三套独立分词器处理图像、文本和动作编码[9] - 图像分词器使用VQ-GAN模型，压缩比为16，码本大小8192：256×256图像生成256个token，512×512图像生成1024个token[9] - 动作分词器将连续机器人动作的每个维度离散化为256个区间，动作由7个token表示[9] - 创新设计替代注意力掩码，使动作生成仅依赖文本和视觉输入，屏蔽之前动作影响，实现并行生成多个动作[12][13] 性能基准测试 - 在离散动作模型对比中，WorldVLA(256×256)平均成功率79.1%，优于OpenVLA的76.5%[22] - 分辨率提升至512×512时性能进一步提高，平均成功率81.8%，显示分辨率与性能正相关[22] - 在连续动作模型对比中，WorldVLA未使用预训练即超越部分预训练模型，证明架构有效性[20][22] 世界模型对动作模型的增强 - 引入世界模型后动作模型成功率从62.8%提升至78.1%，特别是在长序列任务中从23.0%提升至52.4%[26][27] - 世界模型赋予系统前瞻推演能力，通过预判动作后果优化决策，案例显示能持续尝试直到操作成功[26][28] - 环境物理理解、动作风险评估和精确动作解析是三方面主要增强机制[15][16][17] 动作模型对世界模型的提升 - 在视频生成质量上，动作世界模型在50帧序列的FVD指标从718.6优化至674.1，PSNR从23.98提升至24.30[33] - 纯世界模型出现抽屉无法拉开、物体消失等缺陷，而动作世界模型生成连贯且符合物理规律的后续状态[33] - 动作模型通过增强视觉理解能力进一步支持世界模型的视觉生成[18] 行业专家观点 - 小米汽车高级研究总监陈龙认为VLA与世界模型可结合相互促进，分别负责"抽象思考"和"物理感知"[37] - VLA与世界模型结合被视为通往具身智能的重要路径[37]