Workflow
华为坚定要走的世界模型路线,到底是什么?
自动驾驶之心·2025-09-12 07:33

世界模型技术路线概述 - 华为、蔚来等公司坚持世界-行为流派(WA),认为世界模型是实现自动驾驶的终极方案,与视觉语言行为模型(VLA)路线形成技术分歧 [2] - 世界模型使智能体能够理解、表示并预测动态环境,研究重点从2D图像转向利用RGB-D图像、占用网格和激光雷达点云等原生3D/4D表示 [5] - 原生3D/4D信号在物理坐标系中编码度量几何、可见性和运动信息,为安全关键系统提供多视图一致性、刚体运动学和场景级遮挡推理等能力 [9] 3D/4D表示方法 - 视频流表示为多帧序列,强调几何一致性和时间连贯性以确保物理合理的仿真 [19] - 占用网格使用体素指示空间占用状态,时序占用网格扩展到4D捕捉场景演变,能强制执行空间约束 [20] - 激光雷达点云直接捕捉几何信息且不受纹理、光照或天气变化影响,时序激光雷达记录时间戳实现对运动的精确建模 [22] - 神经表示如神经辐射场(NeRF)和高斯溅射(GS)对连续体素场或显式高斯基元进行建模,时间扩展版本添加动态组件实现4D重建 [23] 世界模型功能分类 - 数据引擎在几何和语义条件下生成多样化场景,用于大规模数据增强和场景创建 [29][33] - 动作解释器基于历史观测和动作条件预测未来世界状态,实现动作感知的预测 [30][33] - 神经仿真器通过生成连续场景状态迭代仿真智能体与环境的闭环交互 [31][33] - 场景重建器从部分观测中恢复完整连贯的3D/4D场景,用于高保真建图和数字孪生修复 [34][35] 生成模型技术 - 变分自编码器(VAEs)通过概率编码和解码学习结构化latent空间,训练稳定但生成样本较模糊 [37] - 生成对抗网络(GANs)通过生成器和判别器的极小极大博弈生成数据,能产生高保真样本但训练不稳定 [38] - 扩散模型通过学习逆转逐步加噪过程实现生成,具有较强的稳定性和样本质量但推理速度较慢 [39][40] - 自回归模型将联合分布分解为条件概率乘积,适合序列生成但计算复杂度高 [41] 视频生成世界模型 - 基于视频的生成模型通过提供视觉线索和时间动态建模复杂场景,分为数据引擎、动作解释器和神经仿真器三类 [44] - 感知数据增强方法如BEVGen采用自回归Transformer生成与BEV布局空间对齐的环境图像,MagicDrive结合3D几何和语义描述生成高保真图像 [47] - 动作引导的视频生成如GAIA-1融合视频、文本和动作输入合成真实驾驶场景,GAIA-2扩展框架纳入智能体配置和环境因素 [50] - 闭环仿真器如DriveArena构建包含交通合成和自回归场景生成的框架,DreamForge通过物体级位置编码增强长时程建模能力 [54] 占用生成世界模型 - 基于占用的生成模型提供以几何为中心的表示,对3D世界的语义和结构细节进行编码,分为场景表示器、占用预测器和自回归仿真器 [56] - 3D感知鲁棒性增强方法如SSD采用离散和latent扩散模型生成场景级3D分类数据,SemCity通过扩散过程提升几何和语义保真度 [59] - 4D占用预测模型基于自车动作和历史观测预测未来占用状态,EmergentOcc引入可微渲染实现自监督训练,UniWorld结合图像和激光雷达数据学习基础占用模型 [61] - 自回归仿真器生成大规模时间连贯的4D占用,PDD提出尺度可变扩散框架从粗布局到精细细节生成户外场景,XCube采用分层体素latent扩散实现多分辨率生成 [64] 激光雷达生成世界模型 - 基于激光雷达的生成模型提供几何感知且外观不变的表示,在几何保真度和环境鲁棒性方面具有优势,分为数据引擎、动作预测器和自回归仿真器 [67] - 感知数据增强方法如DUSty通过GAN框架合成真实激光雷达扫描,LiDARGen将朗之万动力学应用于点云生成,R2DM利用DDPM过程实现更高精度生成 [70] - 场景补全方法如UltraLiDAR利用VQ-VAE引入离散体素表示实现稀疏到密集补全,LiDiff利用去噪过程重新定位重复点补全遮挡区域 [73] - 时序建模方法如Copilot4D通过VQ-VAE对点云token化并重构为离散扩散模型,以历史帧和未来动作为输入预测未来激光雷达帧 [75] 数据集与评估体系 - 行业采用多模态数据集如nuScenes包含1000个场景140万帧图像和40万帧激光雷达数据,Waymo Open包含1150个场景100万帧图像和23万帧激光雷达数据 [79] - 评估指标包括生成质量指标(FID、FVD)、预测准确性指标(L1 Error、IoU)、规划质量指标(ADE、FDE)和重建质量指标(PSNR)等 [81][83][84] - 感知保真度指标如FPD评估点云几何真实性,FRD评估激光雷达距离图像分布保真度,FSVD评估体素结构保真度 [81] - 时空一致性指标如VCS评估多视角几何一致性,CTC评估CLIP特征时间稳定性,TTCE评估点云运动对齐 [81][83]