自回归动作世界模型 - 财报，业绩电话会，研报，新闻

自回归动作世界模型

搜索文档

自动驾驶之心· 2025-07-01 12:04

WorldVLA功能与定义 - WorldVLA是一种将视觉-语言-动作（VLA）模型与世界模型结合的自回归动作世界模型，通过集成动作生成与图像理解预测未来状态，学习环境物理规律以优化动作生成[4] - 模型采用注意力掩码策略解决自回归动作生成中的误差传播问题，在动作块生成任务中抓取成功率提升4%-23%[4][8] - 实验显示WorldVLA抓取成功率比独立动作模型高4%，视频生成能力优于普通世界模型，Fréchet视频距离降低10%[8] VLA模型与行业技术瓶颈 - 当前VLA模型依赖多模态大语言模型（MLLM）生成动作，但动作仅作为输出未被深度集成分析，缺乏对动作动态的理解[6] - 世界模型虽能预测未来视觉状态，但无法直接生成动作输出，限制其在需显式动作规划场景的应用[6] - 行业需解决动作泛化能力不足问题，基础MLLM在动作领域表现弱于图像文本领域[19] 模型架构与技术方案 - 采用三模态tokenizer（图像/文本/动作）共享词汇表，图像tokenizer压缩比16，codebook大小8192，256×256图像生成256个token[15] - 动作表示为7个token（3位置+3角度+1抓取器状态），文本tokenizer词汇量65,536含8192图像token和256动作token[15] - 训练策略混合动作模型数据（交叉熵损失）与世界模型数据（α=0.04平衡损失），实现双向增强[16][22] 实验验证与性能表现 - 在LIBERO基准测试中，512×512分辨率模型平均抓取成功率87.8%，超越离散对比模型（79.1%）[27][28] - 世界模型组件使动作模型成功率从62.8%提升至78.1%，动作模型帮助世界模型降低长视频生成FVD指标[29][30][36] - 两帧历史图像输入为最优配置，平衡计算效率与任务成功率（76.6% vs 单帧54.0%）[33] 创新方法与行业价值 - 首创自回归动作世界模型统一框架，实现动作预测与世界状态预测的联合优化[9][12] - 注意力掩码机制突破传统自回归限制，使动作生成独立依赖视觉输入而非历史动作，缓解误差累积[19][20] - 技术方案为机器人灵巧操作提供新范式，预训练世界模型可增强特定任务性能[34][36]

WorldVLA：世界模型实现视觉-动作双向增强，抓取精度显著提升

具身智能之心· 2025-06-30 20:17

WorldVLA功能与定义 - WorldVLA是一种将视觉-语言-动作（VLA）模型与世界模型结合的自回归动作世界模型，通过集成动作与图像理解和生成实现双向增强 [3] - 模型采用注意力掩码策略解决自回归动作生成中的误差传播问题，在动作块生成任务中抓取成功率提升4%-23% [3][7] - 实验显示WorldVLA抓取成功率比独立动作模型高4%，视频生成能力优于普通世界模型，Fréchet视频距离（FVD）降低10% [7] VLA模型与行业背景 - 当前VLA模型依赖多模态大语言模型（MLLM）但缺乏对动作的深度集成分析，世界模型虽能预测未来状态但无法直接生成动作 [5] - WorldVLA通过统一tokenizer架构实现跨模态理解，图像tokenizer压缩比16，codebook大小8192，256×256图像生成256个token [6][14] - 动作tokenizer将连续动作离散化为7个token（3位置+3角度+1抓取状态），文本tokenizer词汇量65,536含8192图像token [14] 技术架构与训练策略 - 模型基于Chameleon架构初始化，混合动作模型数据（交叉熵损失）和世界模型数据（α=0.04平衡损失）进行联合训练 [11][15][20] - 动作模型输入含2帧历史图像，输出K个动作；世界模型输入当前帧和动作，输出下一帧预测 [16][17] - 注意力掩码机制使动作生成仅依赖视觉输入而非历史动作，避免误差累积 [18][19] 实验验证与性能表现 - 在LIBERO基准测试中，512×512分辨率WorldVLA平均抓取成功率81.8%，优于OpenVLA（76.5%）等离散动作模型 [27] - 消融实验显示集成世界模型使动作模型平均成功率从62.8%提升至78.1%，长序列任务提升显著（52.4% vs 23%） [29] - 世界模型预训练使50帧视频生成的PSNR从23.98提升至24.30，LPIPS从15.60降至15.44 [35] 创新贡献与应用潜力 - 首次提出统一动作与图像理解/生成的自回归框架，实现动作模型与世界模型的双向性能增强 [8] - 动作注意力掩码策略突破自回归模型在长动作序列生成中的局限性，为机器人连续操作提供新方案 [7][31] - 高分辨率输入（512×512）显著提升性能，验证视觉细节对机器人操作精度的关键影响 [26][27]