Workflow
Diffusion Planner
icon
搜索文档
VLA的Action到底是个啥?谈谈Diffusion:从图像生成到端到端轨迹规划~
自动驾驶之心· 2025-07-19 18:19
扩散模型原理 - 扩散模型是一种生成式模型,本质是通过正向扩散和反向生成过程对数据分布进行学习和模拟[2] - 正向扩散过程从初始数据分布开始逐步添加噪声,最终达到纯噪声分布[5] - 反向生成过程从纯噪声出发,通过神经网络逐步去除噪声恢复原始数据[6] - 扩散过程基于马尔可夫链,未来状态仅依赖当前状态[8] - U-Net是扩散模型核心架构,采用编码器-解码器结构和跳跃连接增强细节恢复能力[11][12][13] 扩散模型与生成对抗网络对比 - GAN由生成器和判别器组成,通过对抗博弈生成新样本[20] - 扩散模型训练更稳定且样本质量更高,但计算成本较大[27] - GAN可融合多种噪声分布,而扩散模型通常保持噪声类型不变[28] - 扩散模型像"考古修复",GAN像"造假大师"[26] 自动驾驶应用 - 合成数据生成:解决数据稀缺问题,可生成极端天气等罕见场景[30][31] - 场景预测:生成多模态交通参与者行为预测[33] - 感知优化:用于BEV去噪和多传感器融合[34][35] - 路径规划:清华AIR团队Diffusion Planner实现多模态路径生成[36] - 端到端控制:DiffusionDrive实现实时决策[37] - 能量优化:Diffusion-ES算法求解最小能耗路径[42] 企业技术方案 - 毫末智行Diffusion Planner实现预测与规划联合建模,在nuPlan数据集表现优异[47] - 地平线HE-Drive系统利用扩散模型生成舒适驾驶轨迹[48] - 理想汽车MindVLA架构整合扩散模型优化驾驶轨迹[48] - 学术方案:条件扩散模型实现车辆极限漂移控制[49][51]
端到端笔记:diffusion系列之Diffusion Planner
自动驾驶之心· 2025-07-09 20:56
自动驾驶算法模块 - 自动驾驶算法分为两大模块:场景理解(理解周围环境、预测agents行为)和决策(生成安全舒适轨迹、可定制化驾驶行为)[1][2] - diffusion planner工作聚焦于决策模块中的闭环场景性能提升[3] 自动驾驶规划方法对比 - rule-based方法(如PDM)依赖道路中心线选择和规则系统,存在迁移性差、人力成本高、缺乏灵活性等问题[4] - learning-based方法(如UniAD、VAD)通过模仿学习实现类人行为预测,但面临多模态数据分布学习困难,仍需依赖rule-based兜底[6] diffusion model技术优势 - 能更好拟合多模态驾驶行为数据分布,通过高斯加噪/降噪过程分解复杂问题[6] - 基于classifier guidance机制实现定制化驾驶行为,无需针对特定场景重新训练模型[6] - 已在图像生成、机器人动作生成、离线RL等领域验证其高效学习能力[11] diffusion planner核心技术 - 采用MLP-Mixer+self-attention的encoder结构进行高效信息提取[12] - 通过cross-attention降低计算量,DPM-Solver实现20Hz高速轨迹生成[12] - 同时完成自车规划和周车行为预测,支持定制化驾驶行为生成[12] 性能提升表现 - 测试数据显示在Test14、Test14-hard、Val14场景分别达到89.19、75.99、89.87分,显著优于Diffusion-es等对比模型[20] - 实现高质量轨迹生成和多模态驾驶行为拟合(如无导航信息下生成左转/右转/直行轨迹)[14][16] - 在毫末200小时物流车数据上展现强泛化能力,适应非机动车道行驶等特殊场景[23] 后续优化方向 - 数据量和模型参数量scale up对闭环性能的影响[28] - 端到端框架设计而不仅限于planner模块优化[28] - 训练和推理过程的进一步加速[28] - 实车场景下的高效guidance机制实现[28]