Workflow
VLA的Action到底是个啥?谈谈Diffusion:从图像生成到端到端轨迹规划~
自动驾驶之心·2025-07-19 18:19

扩散模型原理 - 扩散模型是一种生成式模型,本质是通过正向扩散和反向生成过程对数据分布进行学习和模拟[2] - 正向扩散过程从初始数据分布开始逐步添加噪声,最终达到纯噪声分布[5] - 反向生成过程从纯噪声出发,通过神经网络逐步去除噪声恢复原始数据[6] - 扩散过程基于马尔可夫链,未来状态仅依赖当前状态[8] - U-Net是扩散模型核心架构,采用编码器-解码器结构和跳跃连接增强细节恢复能力[11][12][13] 扩散模型与生成对抗网络对比 - GAN由生成器和判别器组成,通过对抗博弈生成新样本[20] - 扩散模型训练更稳定且样本质量更高,但计算成本较大[27] - GAN可融合多种噪声分布,而扩散模型通常保持噪声类型不变[28] - 扩散模型像"考古修复",GAN像"造假大师"[26] 自动驾驶应用 - 合成数据生成:解决数据稀缺问题,可生成极端天气等罕见场景[30][31] - 场景预测:生成多模态交通参与者行为预测[33] - 感知优化:用于BEV去噪和多传感器融合[34][35] - 路径规划:清华AIR团队Diffusion Planner实现多模态路径生成[36] - 端到端控制:DiffusionDrive实现实时决策[37] - 能量优化:Diffusion-ES算法求解最小能耗路径[42] 企业技术方案 - 毫末智行Diffusion Planner实现预测与规划联合建模,在nuPlan数据集表现优异[47] - 地平线HE-Drive系统利用扩散模型生成舒适驾驶轨迹[48] - 理想汽车MindVLA架构整合扩散模型优化驾驶轨迹[48] - 学术方案:条件扩散模型实现车辆极限漂移控制[49][51]