自动驾驶世界模型研究进展 - 自动驾驶技术得益于感知与规划的突破性进展,但在面对长尾场景时依然脆弱,制约了闭环驾驶性能[2] - 大量研究尝试运用世界模型,通过预测驾驶场景的未来演变来增强系统的泛化性与鲁棒性,以解决长尾问题[2] - 现有世界模型在自动驾驶中的应用主要分为三类:合成下游任务数据以应对罕见场景、利用模拟环境进行策略学习、提供未来的视觉预测作为辅助监督信号[3] 现有世界模型的局限性 - 现有世界模型在规划层面的贡献往往是间接的或与规划器并行的,缺乏与决策过程的紧密耦合[3] - 世界模型模拟器仅用于合成数据或作为闭环环境引导策略学习,其物理理解无法直接传递到规划器的内部状态中[3] - 世界模型监督仅预测未来视觉或信号来监督轨迹,规划过程依然是外部指定的[3] - 统一世界模型尝试联合生成视频和轨迹,但往往将视频生成器与策略头解耦,未能利用生成器强大的内部潜在特征作为规划依据,导致“视觉想象”与“动作决策”之间存在鸿沟[3] DriveLaW模型的核心创新 - 提出了DriveLaW,一种基于共享潜在空间表征的端到端世界模型,将生成与规划从并行转变为链式结构[5] - 核心思想在于直接利用大规模视频生成模型学习到的、蕴含丰富场景语义、智能体动力学和物理规律的潜在特征,将其注入到基于DiT的规划器中[5] - 核心优势包括链式生成与规划、独特的架构设计以及渐进式学习策略[5] DriveLaW的架构与训练方法 - 模型由DriveLaW-Video(时空世界生成器)和DriveLaW-Act(基于扩散的规划器)两部分组成[10] - 采用高压缩比(pixel-to-token ratio 64)的时空VAE,将视频片段编码至时空分辨率、128通道的因果潜空间,优于常见的16或32压缩率[18] - 引入了噪声重注入机制,在每次主去噪前,选择性向高频区域重注入噪声,以恢复动态目标与车道线的锐度和纹理,平衡细节重建与伪影抑制[25][27] - 采用三阶段渐进式训练策略:第一阶段在降低的空间分辨率下学习鲁棒运动模式;第二阶段在更高的空间分辨率下增强视觉质量;第三阶段将规划器与视频生成器的潜在特征耦合进行训练[34] DriveLaW的实验性能 - 在nuScenes视频生成任务上,DriveLaW达到了4.6 FID和81.3 FVD分数,超越了之前的世界模型方案[5][35] - 在NAVSIM闭环规划基准测试中,无需任何强化学习微调或后处理,便达到了89.1 PDMS分数,超越了以往的纯视觉世界模型方案[5][36] - 与采用并行生成-规划设计的Epona相比,DriveLaW提高了2.9 PDMS;比使用VLM和世界模型监督的DriveVLA-W0和PWM分别提高了1.9和1.0 PDMS[36] - 增加视频生成器的预训练样本量持续提升了闭环性能,使用7.6M样本预训练的生成器比从零开始训练的生成器带来了+3.2 PDMS的提升[37] 不同表征对规划性能的影响 - 视频生成器潜在特征比BEV特征提高了5.0 PDMS,比VLM隐藏状态提高了2.6 PDMS,证明了该表征的有效性[40] - 以来自早期去噪步骤的潜变量为条件会产生更强的规划能力,而来自后期步骤的潜变量表现较差,因为原始像素格式的视频包含冗余信息[41] - 可视化分析显示,VGM特征比BEV和VLM特征更锐利、噪声更少,并表现出卓越的语义连贯性和强大的空间结构感知能力[39] 训练策略的有效性验证 - 移除第一阶段训练会导致FVD显著升高(从81.3升至109.3),表明时间连贯性明显丧失[42] - 省略第二阶段训练会导致FVD少量增加(从81.3升至93.2),表明空间细节略有下降[42] - 完整的多阶段训练策略实现了最佳平衡,产生了最低的FID(4.6)和FVD(81.3)[42]
超越DriveVLA-W0!DriveLaW:世界模型表征一统生成与规划(华科&小米)
自动驾驶之心·2026-01-04 09:04