Workflow
Autonomous Driving Planning
icon
搜索文档
哈工大提出LAP:潜在空间上的规划让自动驾驶决策更高效、更强大!
自动驾驶之心· 2025-12-03 08:04
文章核心观点 - 提出了一种名为LAP的自动驾驶规划新方法,其核心设计哲学是去除冗余的动力学细节,让模型在高层语义化的潜在空间进行规划,从而提升对复杂、多模态驾驶策略的建模能力并大幅提高推理速度 [1] - 该方法通过引入轨迹变分自编码器、初始状态注入、无分类器引导和细粒度特征蒸馏等关键技术,在nuPlan基准测试中实现了最先进的性能,尤其在最具挑战性的Test14-hard数据集上,闭环评测分数达到78.52,并以十倍的推理速度超越前SOTA方法 [1][22][23] 背景与问题定义 - 自动驾驶运动规划领域的发展面临挑战:基于规则的系统难以扩展,模仿学习方法易受“模式平均”影响,而现有扩散模型方法直接在原始轨迹路点上操作,导致计算效率低且模型容量浪费于底层运动学细节 [9] - LAP方法旨在解决上述问题,通过将高层意图与底层运动学解耦,在解耦得到的潜在空间中进行规划 [2][9] 方法论详解 - **轨迹潜在表示**:设计了一个基于Transformer的轨迹变分自编码器,将原始轨迹压缩到低维、语义化的潜在空间,训练目标包含重建损失、KL散度和差分损失 [10][11][14] - **潜在空间规划**:在VAE训练完成后,训练一个潜在扩散模型来预测轨迹对应的潜在向量,模型采用DiT结构,并引入初始状态注入模块为预测提供明确的先验“锚点” [12][15][19] - **导航引导增强**:在训练中随机丢弃导航信息,并在推理时使用无分类器引导技术来强化导航约束,以缓解模型在闭环规划中出现的“因果混淆”现象 [6][7][16] - **细粒度特征蒸馏**:引入特征蒸馏模块,使用像素空间规划器作为教师模型,将其中间层特征作为目标来指导学生模型,以弥合高度抽象的规划空间与细粒度条件输入之间的信息交互鸿沟 [21][24] 实验结果与分析 - **性能对比**:在nuPlan基准上,LAP在所有基于学习的方法中实现了SOTA性能,在最具挑战性的Test14-hard数据集上,LAP (o1s2)的闭环评测分数达到78.52,大幅超越先前SOTA方法约3.1分 [22][23] - **推理速度**:受益于潜在空间的紧凑性,LAP仅需2步采样即可生成高质量轨迹,推理时间低至18.81-21.69毫秒,相比需要迭代10步采样的Diffusion Planner实现了最高10倍的推理加速 [23][27] - **多模态能力**:潜在空间规划能更好地捕捉多样化的高级驾驶策略,如不同的转弯半径和速度,避免了模式坍缩问题 [28][29] - **潜在空间分析**:潜在空间具有光滑性,线性插值能产生平滑的轨迹过渡;通过降维可视化与聚类分析,证明其学到的语义空间是高度结构化的,并与驾驶意图良好对齐 [30][32][33][34][36] 消融实验与模块影响 - **初始状态注入**:提升了模型在非反应性环境下的性能,但在反应性环境中因“因果混淆”问题可能导致性能下降 [36][38] - **特征蒸馏**:显著提升了模型在非反应性和反应性两种环境下的表现,证明了其有效性 [36][38] - **导航增强**:大幅缓解了反应性环境中的“因果混淆”问题 [36][38] - **采样步数**:1步或2步采样效果最佳,增加步数反而可能导致性能下降,因过于精确的解码可能无法应对闭环规划中的分布外场景 [38] 核心贡献总结 - 利用变分自编码器实现了高层驾驶语义与底层运动学细节的解耦 [40][42] - 引入细粒度特征蒸馏模块,有效弥合了潜在规划空间与向量化场景上下文之间的交互鸿沟 [40][42] - 在nuPlan基准上实现了最先进的闭环性能,同时将推理速度提升了10倍 [40][42]
扩散规划器全新升级!清华Flow Planner:基于流匹配模型的博弈增强算法(NeurIPS'25)
自动驾驶之心· 2025-10-16 07:33
文章核心观点 - 清华大学AIR研究院等机构提出全新自动驾驶决策算法框架Flow Planner,该框架基于Flow Matching生成式模型,在轨迹表征、模型架构和生成机制三方面进行协同改进,旨在解决复杂交通场景下的博弈行为建模挑战 [1] - Flow Planner在高密度车流多车博弈、行人突发横穿等激烈竞争场景下,能够动态感知周围意图变化并生成自然流畅的类人规划轨迹 [1] - 实验结果显示,Flow Planner在nuPlan闭环评测及新设立的interPlan高交互基准上均取得了学习型算法的SOTA性能,决策成功率和轨迹质量显著超越现有扩散模型规划方法 [1] 技术背景与挑战 - 自动驾驶规划的核心挑战在于多车密集、行为多样的交通场景中实现安全可靠且类人的决策,传统规则方法缺乏泛化能力,而学习型方法面临博弈行为建模不足和高质量博弈数据稀缺两大核心挑战 [3][6] - 当前学习型规划方法简单地增大模型参数量难以有效捕捉博弈关系,容易导致过拟合和呆板驾驶行为,而引入过多人工结构设计又会增大模型复杂度 [6] - 高密度强博弈场景在训练数据中呈显著长尾分布,模型难以通过模仿学习准确捕捉专家驾驶意图 [6] 关键技术创新:细粒度轨迹分段表示 - Flow Planner将轨迹划分为多个重叠片段并为每个片段建立局部token表示,改变了传统用整体token表示完整轨迹的方法 [8] - 该策略使模型能够保持运动学连续性、精确捕捉不同时间段交互模式、提升多模态驾驶行为的可表达性 [8][12] - 局部建模加全局拼接的策略兼顾表达力与平滑性,有效改善了规划轨迹的连贯性与多样性 [8] 关键技术创新:博弈增强时空融合机制 - 设计了基于尺度自适应注意力的特征融合模块,使模型能够在统一特征空间中同时处理车道、自车与周车轨迹信息 [9][13] - 模块能基于具体场景动态调整每个token的感受野大小,自动聚焦于关键交互对象 [9][13] - 通过独立的Adaptive LayerNorm与FFN模块优化异构信息融合,避免不同模态特征互相干扰 [13] 关键技术创新:周车增强轨迹生成 - 利用流匹配模型的无分类器引导生成策略,在推理时通过调整周车信息、道路信息等生成条件的权重来放大其对轨迹规划的影响 [10] - 该机制能引导模型生成超越数据的驾驶行为与策略,并帮助模型平衡保守与激进策略,在交互密集场景中生成更自然可控的驾驶行为 [10] 实验性能结果 - 在nuPlan的Val14基准上首次突破90分大关,得分90.43,不依赖任何规则先验或后处理模块 [11][14] - 在引入基于规则的后处理模块后,Flow Planner表现与最优混合式方法相当甚至更优,得分94.31 [11][14] - 在新设立的interPlan高交互基准上,整体性能提升8.9分,在高密度交通、行人横穿等极端交互情境下展现出卓越反应策略 [15] - 在部分分布外场景中展现出出色泛化能力,如对训练数据中未出现的“前车撞车”场景能准确判断并采取绕行策略 [15][20]
端到端笔记:diffusion系列之Diffusion Planner
自动驾驶之心· 2025-07-09 20:56
自动驾驶算法模块 - 自动驾驶算法分为两大模块:场景理解(理解周围环境、预测agents行为)和决策(生成安全舒适轨迹、可定制化驾驶行为)[1][2] - diffusion planner工作聚焦于决策模块中的闭环场景性能提升[3] 自动驾驶规划方法对比 - rule-based方法(如PDM)依赖道路中心线选择和规则系统,存在迁移性差、人力成本高、缺乏灵活性等问题[4] - learning-based方法(如UniAD、VAD)通过模仿学习实现类人行为预测,但面临多模态数据分布学习困难,仍需依赖rule-based兜底[6] diffusion model技术优势 - 能更好拟合多模态驾驶行为数据分布,通过高斯加噪/降噪过程分解复杂问题[6] - 基于classifier guidance机制实现定制化驾驶行为,无需针对特定场景重新训练模型[6] - 已在图像生成、机器人动作生成、离线RL等领域验证其高效学习能力[11] diffusion planner核心技术 - 采用MLP-Mixer+self-attention的encoder结构进行高效信息提取[12] - 通过cross-attention降低计算量,DPM-Solver实现20Hz高速轨迹生成[12] - 同时完成自车规划和周车行为预测,支持定制化驾驶行为生成[12] 性能提升表现 - 测试数据显示在Test14、Test14-hard、Val14场景分别达到89.19、75.99、89.87分,显著优于Diffusion-es等对比模型[20] - 实现高质量轨迹生成和多模态驾驶行为拟合(如无导航信息下生成左转/右转/直行轨迹)[14][16] - 在毫末200小时物流车数据上展现强泛化能力,适应非机动车道行驶等特殊场景[23] 后续优化方向 - 数据量和模型参数量scale up对闭环性能的影响[28] - 端到端框架设计而不仅限于planner模块优化[28] - 训练和推理过程的进一步加速[28] - 实车场景下的高效guidance机制实现[28]