WorldVLA

搜索文档
首次!世界模型、动作模型融合,全自回归模型WorldVLA来了
机器之心· 2025-07-03 16:01
核心观点 - 阿里巴巴达摩院提出WorldVLA模型,首次将世界模型和动作模型融合到一个全自回归模型中,实现文本、图片、动作的统一理解和生成 [1][5] - WorldVLA通过双向增强机制,既提升动作生成的准确性,也增强图像预测的质量 [7] - 在LIBERO基准测试中,WorldVLA抓取成功率提升4%,视频生成质量FVD指标降低10% [8] 模型架构 - 使用三个独立编码器分别处理图像、文本和动作数据,不同模态token共享相同词表 [5] - 世界模型部分通过输入动作生成视觉表示,学习环境物理动态规律 [7] - 动作模型部分增强对视觉信息的理解,提升世界模型的图像生成准确性 [7] 技术创新 - 提出动作注意力掩码策略,解决自回归模型中动作生成误差累积问题 [7] - 该策略在动作分块生成任务中使抓取成功率提升4%到23% [8] - 在未预训练情况下,WorldVLA超越需要预训练的全自回归模型OpenVLA [17] 实验结果 - 在LIBERO基准测试中,256*256版本平均成功率79.1%,512*512版本提升至81.8% [18] - 消融实验显示加入世界模型可使动作模型平均成功率从62.8%提升至67.2% [19] - 采用注意力掩码策略后,动作模型平均成功率从54.0%大幅提升至76.6% [19] 应用展示 - 可根据指令完成对应动作 [20] - 能够根据当前帧图片和动作生成下一帧图片 [24]
WorldVLA:世界模型实现视觉-动作双向增强,抓取精度显著提升
具身智能之心· 2025-06-30 20:17
WorldVLA功能与定义 - WorldVLA是一种将视觉-语言-动作(VLA)模型与世界模型结合的自回归动作世界模型,通过集成动作与图像理解和生成实现双向增强 [3] - 模型采用注意力掩码策略解决自回归动作生成中的误差传播问题,在动作块生成任务中抓取成功率提升4%-23% [3][7] - 实验显示WorldVLA抓取成功率比独立动作模型高4%,视频生成能力优于普通世界模型,Fréchet视频距离(FVD)降低10% [7] VLA模型与行业背景 - 当前VLA模型依赖多模态大语言模型(MLLM)但缺乏对动作的深度集成分析,世界模型虽能预测未来状态但无法直接生成动作 [5] - WorldVLA通过统一tokenizer架构实现跨模态理解,图像tokenizer压缩比16,codebook大小8192,256×256图像生成256个token [6][14] - 动作tokenizer将连续动作离散化为7个token(3位置+3角度+1抓取状态),文本tokenizer词汇量65,536含8192图像token [14] 技术架构与训练策略 - 模型基于Chameleon架构初始化,混合动作模型数据(交叉熵损失)和世界模型数据(α=0.04平衡损失)进行联合训练 [11][15][20] - 动作模型输入含2帧历史图像,输出K个动作;世界模型输入当前帧和动作,输出下一帧预测 [16][17] - 注意力掩码机制使动作生成仅依赖视觉输入而非历史动作,避免误差累积 [18][19] 实验验证与性能表现 - 在LIBERO基准测试中,512×512分辨率WorldVLA平均抓取成功率81.8%,优于OpenVLA(76.5%)等离散动作模型 [27] - 消融实验显示集成世界模型使动作模型平均成功率从62.8%提升至78.1%,长序列任务提升显著(52.4% vs 23%) [29] - 世界模型预训练使50帧视频生成的PSNR从23.98提升至24.30,LPIPS从15.60降至15.44 [35] 创新贡献与应用潜力 - 首次提出统一动作与图像理解/生成的自回归框架,实现动作模型与世界模型的双向性能增强 [8] - 动作注意力掩码策略突破自回归模型在长动作序列生成中的局限性,为机器人连续操作提供新方案 [7][31] - 高分辨率输入(512×512)显著提升性能,验证视觉细节对机器人操作精度的关键影响 [26][27]