Workflow
从DriveVLA-W0出发:探讨世界模型如何放大VLA的扩展定律(中科院)
自动驾驶之心·2025-11-04 08:03

技术挑战与解决方案 - 自动驾驶视觉-语言-动作模型面临“监督缺失”问题,其庞大模型能力仅由稀疏、低维的动作信号监督,导致大部分表征潜力未被充分利用[3] - 中科院和华为引望团队提出DriveVLA-W0训练范式,利用世界模型预测未来图像以解决监督缺失问题[3] - 针对离散视觉token的VLA模型设计自回归世界模型,针对连续视觉特征的VLA模型设计扩散世界模型[3] - 基于世界建模学习的丰富表征,引入轻量级动作专家以解决实时部署中的推理耗时问题[3] 模型性能与数据规模效应 - 在NAVSIM v1/v2基准测试和规模大680倍的内部数据集上,DriveVLA-W0显著优于BEV和VLA基线方法[5] - 该技术放大了数据Scaling Law效果,表明随着训练数据集规模增大,性能提升速度会加快[5] - 模型在7000万帧数据上真正放大了VLA的数据扩展定律[8] 技术架构与应用前景 - DriveVLA-W0通过世界模型提供稠密自监督,实现从“监督赤字”到“定律放大”的转变[9] - 该研究为构建更通用的驾驶智能提供了充满前景的道路[3] - 技术分享重点涵盖自动驾驶VLA的“监督赤字”挑战、世界模型破解稀疏监督的方法以及DriveVLA-W0的架构与性能[12]