超越DriveVLA-W0！DriveLaW：世界模型表征一统生成与规划（华科&小米）

自动驾驶世界模型研究进展 - 自动驾驶技术得益于感知与规划的突破性进展，但在面对长尾场景时依然脆弱，制约了闭环驾驶性能[2] - 大量研究尝试运用世界模型，通过预测驾驶场景的未来演变来增强系统的泛化性与鲁棒性，以解决长尾问题[2] - 现有世界模型在自动驾驶中的应用主要分为三类：合成下游任务数据以应对罕见场景、利用模拟环境进行策略学习、提供未来的视觉预测作为辅助监督信号[3] 现有世界模型的局限性 - 现有世界模型在规划层面的贡献往往是间接的或与规划器并行的，缺乏与决策过程的紧密耦合[3] - 世界模型模拟器仅用于合成数据或作为闭环环境引导策略学习，其物理理解无法直接传递到规划器的内部状态中[3] - 世界模型监督仅预测未来视觉或信号来监督轨迹，规划过程依然是外部指定的[3] - 统一世界模型尝试联合生成视频和轨迹，但往往将视频生成器与策略头解耦，未能利用生成器强大的内部潜在特征作为规划依据，导致“视觉想象”与“动作决策”之间存在鸿沟[3] DriveLaW模型的核心创新 - 提出了DriveLaW，一种基于共享潜在空间表征的端到端世界模型，将生成与规划从并行转变为链式结构[5] - 核心思想在于直接利用大规模视频生成模型学习到的、蕴含丰富场景语义、智能体动力学和物理规律的潜在特征，将其注入到基于DiT的规划器中[5] - 核心优势包括链式生成与规划、独特的架构设计以及渐进式学习策略[5] DriveLaW的架构与训练方法 - 模型由DriveLaW-Video（时空世界生成器）和DriveLaW-Act（基于扩散的规划器）两部分组成[10] - 采用高压缩比（pixel-to-token ratio 64）的时空VAE，将视频片段编码至时空分辨率、128通道的因果潜空间，优于常见的16或32压缩率[18] - 引入了噪声重注入机制，在每次主去噪前，选择性向高频区域重注入噪声，以恢复动态目标与车道线的锐度和纹理，平衡细节重建与伪影抑制[25][27] - 采用三阶段渐进式训练策略：第一阶段在降低的空间分辨率下学习鲁棒运动模式；第二阶段在更高的空间分辨率下增强视觉质量；第三阶段将规划器与视频生成器的潜在特征耦合进行训练[34] DriveLaW的实验性能 - 在nuScenes视频生成任务上，DriveLaW达到了4.6 FID和81.3 FVD分数，超越了之前的世界模型方案[5][35] - 在NAVSIM闭环规划基准测试中，无需任何强化学习微调或后处理，便达到了89.1 PDMS分数，超越了以往的纯视觉世界模型方案[5][36] - 与采用并行生成-规划设计的Epona相比，DriveLaW提高了2.9 PDMS；比使用VLM和世界模型监督的DriveVLA-W0和PWM分别提高了1.9和1.0 PDMS[36] - 增加视频生成器的预训练样本量持续提升了闭环性能，使用7.6M样本预训练的生成器比从零开始训练的生成器带来了+3.2 PDMS的提升[37] 不同表征对规划性能的影响 - 视频生成器潜在特征比BEV特征提高了5.0 PDMS，比VLM隐藏状态提高了2.6 PDMS，证明了该表征的有效性[40] - 以来自早期去噪步骤的潜变量为条件会产生更强的规划能力，而来自后期步骤的潜变量表现较差，因为原始像素格式的视频包含冗余信息[41] - 可视化分析显示，VGM特征比BEV和VLM特征更锐利、噪声更少，并表现出卓越的语义连贯性和强大的空间结构感知能力[39] 训练策略的有效性验证 - 移除第一阶段训练会导致FVD显著升高（从81.3升至109.3），表明时间连贯性明显丧失[42] - 省略第二阶段训练会导致FVD少量增加（从81.3升至93.2），表明空间细节略有下降[42] - 完整的多阶段训练策略实现了最佳平衡，产生了最低的FID（4.6）和FVD（81.3）[42]