Workflow
OmniNWM
icon
搜索文档
上交OmniNWM:突破三维驾驶仿真极限的「全知」世界模型
自动驾驶之心· 2025-10-25 00:03
研究概述 - 研究提出了一种名为OmniNWM的全景、多模态、带精确控制与内在奖励的驾驶导航世界模型 [2] - 该模型在生成质量、控制精度与长时序稳定性上全面超越现有SOTA(State-of-the-Art) [2] - 研究为自动驾驶的仿真训练与闭环评估树立了新标杆 [2] 技术框架与核心创新 - 模型核心在于将状态生成、动作控制、奖励评估三者无缝集成,提出了一个创新的统一框架 [10] - 针对现有世界模型的三大核心挑战:状态的局限性、动作的模糊性、奖励的缺失,提供了解决方案 [10] - 首次在状态、动作、奖励三大维度实现统一,构建可交互、可评估、可扩展的综合性虚拟驾驶环境 [8][58] 多模态状态生成能力 - 利用Panoramic Diffusion Transformer (PDiT)作为核心,首次实现RGB、语义图、度量深度图、3D语义Occupancy的联合生成 [11][12] - 四模态输出在像素级别对齐,共享解码器确保跨模态一致性 [12] - 生成的3D Occupancy是奖励计算与闭环规划的核心依据 [13][16] 精确动作控制机制 - 创新性地提出归一化全景Plücker Ray-map作为动作表示,将输入轨迹转化为稠密的射线场指导生成过程 [18] - 通过尺度归一化与位姿归一化,构建统一Plücker空间,支持跨数据集、多相机配置下的零样本泛化 [22][27] - 该策略显著扩展了有效轨迹的覆盖范围,轨迹分布多样性远超原始数据集,支持复杂驾驶行为生成 [28][32] 长时序生成技术 - 引入Flexible Forcing策略,支持生成超过GT(Ground Truth)长度的321帧超长序列 [29][31] - 采用多层级噪声注入,支持帧级自回归和片段级自回归两种推理模式 [32][33] - 该策略显著抑制长时序中的结构退化,FVD@201帧指标为25.22,远优于消融模型的386.72 [34] 内生稠密奖励系统 - 直接利用生成的3D Occupancy定义稠密奖励函数,无需依赖外部模型 [35] - 奖励函数包含碰撞惩罚、越界惩罚和速度奖励三项,用于评估驾驶行为的合规性与安全性 [35][36][39] - 在测试场景中,奖励函数能有效区分碰撞、避让不足、成功规避三种行为 [41] 闭环规划与评估 - 引入专用的Vision-Language-Action (VLA) 规划器OmniNWM-VLA,基于多模态大模型Qwen-2.5-VL构建 [43] - 核心创新是Tri-Modal Mamba-based Interpreter (Tri-MIDI)融合模块,轻量且即插即用 [44] - 模型采用因果语言建模目标,将轨迹视为"动作序列"进行预测,能学习驾驶场景下的时空连贯性与物理合理性 [48][50] 实验性能与评估 - 在视频生成质量上,无需Occupancy或点云等体积条件,仍超越所有SOTA模型 [51][52] - 在深度图生成和3D Occupancy预测任务中,以生成的方式超越所有SOTA的预测类模型 [53][54] - 支持零样本泛化,可无缝迁移到nuPlan与内部数据集,支持不同相机数量配置且无需微调 [56]