解决特斯拉「监督稀疏」难题，用世界模型放大自动驾驶的Scaling Law

文章核心观点 - 视觉语言动作模型在自动驾驶领域面临“监督稀疏”的核心挑战，即高维视觉输入与低维稀疏动作监督之间的不匹配，导致数据规模定律失效 [3][7] - 研究团队提出DriveVLA-W0方案，通过引入世界模型作为稠密的自监督信号，迫使模型学习环境动态规律，成功解锁并放大了数据规模定律 [10][11][17] - 该方案在7000万帧数据规模上验证有效，显著提升模型性能并降低推理延迟，为VLA模型的产业落地提供了新路径 [21][23][27] VLA模型的“监督赤字”问题 - 自动驾驶领域希望复现大语言模型的数据规模定律，但VLA模型面临“监督赤字”困境 [6][7] - 数十亿参数的VLA模型接收高维稠密视觉信息流，监督信号却是低维稀疏的驾驶动作，导致模型表征能力浪费，无法充分学习复杂环境动态 [7] - 实验证实，在稀疏动作监督下，VLA模型性能随数据量增加迅速饱和，数据规模定律效应大打折扣 [8] 世界模型的破解之道 - DriveVLA-W0方案创造性引入世界模型，将“预测未来图像”作为稠密自监督训练任务，替代依赖稀疏动作的传统方法 [10][11] - 预测下一帧完整视觉画面迫使模型学习世界真实运行规律，如车辆运动趋势、人车交互关系，提供比动作更丰富稠密的学习信号 [14][15] - 世界模型从根本上缓解了“监督赤字”问题，为模型提供了理解环境动态的必要监督 [15] 世界模型对数据规模定律的放大效应 - 研究核心贡献在于发现世界模型能显著“放大”数据规模定律，使模型性能随数据量增加实现持续显著提升 [17][23] - 在700K到70M的数据规模上，DriveVLA-W0性能提升斜率显著优于仅依赖动作监督的基线模型 [21] - 在70M帧规模下，世界模型使碰撞率降低20.4%，实现了单纯堆砌动作数据无法达到的质变 [24] 兼顾性能与效率的模型设计 - 针对VLA模型“高延迟”痛点，团队提出轻量级MoE“动作专家”架构，在不牺牲性能的前提下优化推理效率 [26] - 该设计显著降低模型推理延迟，仅为基线VLA模型的63.1%，为模型实时部署提供可能 [27]