Workflow
Momentary Trajectory Prediction
icon
搜索文档
Diffusion²:一个双扩散模型,破解自动驾驶“鬼探头”难题!
自动驾驶之心· 2025-10-10 07:32
文章核心观点 - 同济大学与威斯康星大学麦迪逊分校提出Diffusion²模型 专为解决自动驾驶中“鬼探头”场景下的瞬时行人轨迹预测难题 [1] - 该模型采用两个串联的扩散模型 分别进行反向历史轨迹预测和正向未来轨迹预测 以捕捉轨迹间的因果依赖性 [2][7] - 通过引入双头参数化机制量化预测不确定性 并结合时间自适应噪声调度器动态调整噪声 在ETH/UCY和斯坦福无人机数据集上实现了最先进的预测性能 [5][7][45] 研究背景与问题定义 - 准确的行人轨迹预测对自动驾驶安全性至关重要 尤其在行人突然从盲区出现等瞬时观测场景中 [2] - 传统方法依赖足够长的观测期(如8帧约3.2秒) 但在现实场景中往往只能获得有限观测数据 导致预测性能显著下降 [2] - 在SDD数据集中 仅有瞬时观测的行人出现频率达2.22 s⁻¹ 在ETH/UCY数据集中为1.02 s⁻¹ 凸显了研究该问题的重要性 [2] - 研究目标为仅使用两帧观测数据作为输入 预测行人的未来轨迹及未观测到的历史轨迹 [8] 模型架构与技术创新 - Diffusion²由DDPMpast和DDPMfut两个顺序连接的扩散模型组成 分别负责反向预测历史轨迹和正向预测未来轨迹 [14] - 双头参数化机制通过两个输出头增强标准噪声预测网络 一个头预测噪声 另一个头估计每个坐标的对数方差以量化偶然不确定性 [4][17][18] - 时间自适应噪声调度器根据预测的历史轨迹不确定性水平 在前向扩散过程中动态调节噪声尺度 高不确定性时注入更多噪声以鼓励探索 [5][22][23] - 模型采用对编码器不敏感的设计 可无缝集成多种编码器 实验中采用了具有卓越表征能力的MOE编码器 [15] 实验性能与结果 - 在ETH/UCY数据集上 Diffusion²的平均ADE(平均位移误差)为0.19 FDE(最终位移误差)为0.33 优于所有对比方法 [45] - 在斯坦福无人机数据集上 ADE为8.26 FDE为14.87 同样达到最先进水平 [45] - 推理延迟方面 在NVIDIA RTX A800硬件上 DDPM版本为412毫秒 DDIM版本为75毫秒 优于部分对比方法 [47] - 消融实验证明 双头参数化机制和自适应噪声调度器的引入均能显著提升模型性能 [48] 技术局限性与未来方向 - 基于扩散的框架存在迭代采样过程 导致推理速度较慢 可能阻碍其在实时场景中的部署 [52] - 训练过程涉及优化多个扩散阶段 计算成本较高 [52] - 在交互密集的场景(如UNIV数据集)中 模型的适应能力有所下降 [54] - 未来工作将探索更高效的训练和推理方法 以降低计算资源开销 并提升在复杂交通场景中的鲁棒性 [53][54]