ResAD
搜索文档
摸底地平线HSD一段式端到端的方案设计
自动驾驶之心· 2026-01-13 18:14
文章核心观点 - 地平线公司提出的两篇关于一段式端到端自动驾驶方案(HSD)的核心文章,即DiffusionDrive和ResAD,为行业提供了重要的技术思路和启发 [2][3] - DiffusionDrive的核心贡献在于其基于锚点(anchor-based)的轨迹生成方法,旨在降低训练难度并提升推理实时性 [4][8][10] - ResAD的核心贡献在于其残差监督设计,通过预测未来轨迹与惯性外推轨迹之间的残差,使模型更专注于学习驾驶行为的多样性,有效应对数据分布不平衡问题 [11][12][17] DiffusionDrive方案总结 - **整体架构**:方案整体架构可分为三部分:感知信息、导航信息和轨迹生成 [6] - **感知信息**:核心是将感知任务的信息表征传递给规划器,一段式方案可采用稠密(dense)的BEV特征图或稀疏(sparse)的实例特征等不同玩法,通常结合公司现有技术栈适配 [6] - **导航信息**:实践中确保模型遵循正确导航路线极具挑战性,特别是在复杂路况(如上海)下,算法设计需考虑导航平台、信息丰富度及定位能力等多方面因素 [7] - **轨迹生成**:采用“截断扩散”(Truncated Diffusion)方法,基于人类驾驶行为存在固定模式的观察 [8] - 具体流程:1) 从训练集中通过K-Means聚类出N个代表常见驾驶行为的轨迹序列作为锚点;2) 训练时对这些锚点轨迹施加较弱的噪声,从而减少去噪所需的步数;3) 训练时计算与真值轨迹最接近的锚点的去噪轨迹损失,并为每个锚点预测存在性 [9] - **方案优势**:基于锚点的轨迹生成方法能降低训练收敛难度,减少推理时的去噪次数需求,并且可根据算法设计锚点数量以控制推理成本 [8][9][10] - **潜在疑问**:文章未涉及系统时序模块,因此轨迹在时序上的稳定性如何保证存疑 [10] ResAD方案总结 - **核心设计**:方案最有意思的部分是残差设计,模型不直接生成未来轨迹,而是预测未来轨迹与基于惯性外推的未来轨迹之间的残差 [12] - **残差正则化**:由于距离当前时刻越远,残差通常越大,因此需要对时序上的残差进行正则化处理,以压缩其区间 [13] - **设计优势**:残差监督能使不同未来时刻的轨迹分布更一致,这种一致性非常有益:在损失计算上,轨迹预测误差不会被距离自车较远的点过度影响;在学习难度上,模型更不易在数据分布不平衡的情况下“偷懒” [14][17] - **惯性参考扰动**:考虑到残差设计,其生成过程中的噪声扰动方式也不同,噪声直接作用于初始速度,并通过控制横向(lat)和纵向(lon)的噪声大小来调整模型对不同方向的学习难度和关注程度,会设置K种噪声以供推理时按需选择 [15] - **轨迹排序器(Ranker)**:方案提到了轨迹选择器,将top-k的预测轨迹编码作为查询(Q),环境信息(感知和导航信息)作为键(K)和值(V),通过Transformer处理,同时加入自车状态(ego status)的嵌入,来预测多个可自定义的度量分数(metric scores) [16] - **方案评价**:正则化的残差监督令人印象深刻,它将惯性部分从预测中剥离,使模型专注于真正的多样性部分,有效对抗了数据采集(数采)中大量匀速行驶数据导致的不平衡分布问题 [17] - **改进建议**:轨迹排序器部分解答了关于DiffusionDrive轨迹稳定性的疑问,但可以进一步设计为时序模块,以提升选择的稳定性 [17]
摸底地平线HSD一段式端到端的方案设计
自动驾驶之心· 2025-12-30 08:28
文章核心观点 - 文章对地平线公司提出的两篇关于一段式端到端自动驾驶方案的核心论文进行了技术解读,重点分析了DiffusionDrive和ResAD两篇工作的核心思想、架构设计及技术亮点,认为这些工作为行业从业者提供了重要启发 [2][3][18] DiffusionDrive方案总结 - 整体架构可分为感知信息、导航信息和轨迹生成三部分 [6] - 感知信息部分的核心是将感知任务的信息表征传递给规划器,一段式方案可采用稠密BEV特征图或稀疏实例特征等不同玩法 [6] - 导航信息的融合在实践中挑战巨大,特别是在复杂路况下,算法设计需结合具体导航平台、信息丰富度和定位能力 [7] - 轨迹生成部分的核心创新是“Truncated Diffusion”方法,其灵感源于人类驾驶行为具有固定模式这一观察 [8] - 该方法首先从训练集中通过K-Means聚类出N个描述常见驾驶行为的轨迹序列作为锚点 [9] - 在训练中对这些锚点轨迹进行弱加噪,从而降低去噪所需的步数,减少了训练收敛难度和推理时的去噪次数需求 [8][9] - 训练时计算与真值轨迹最接近的锚点对应的去噪轨迹损失,并预测每个锚点的存在性 [9] - 该锚点式轨迹生成方法降低了训练难度并提高了推理实时性,但文章未涉及系统时序模块以保障轨迹稳定性 [10] ResAD方案总结 - 整体架构的核心创新在于残差设计,模型不直接生成未来轨迹,而是预测未来轨迹与惯性外推轨迹之间的残差 [12] - 由于距离当前时刻越远残差越大,需要对时序上的残差进行正则化处理,以压缩其区间 [13] - 正则化后的残差分布在不同未来时刻表现得更一致,这有助于模型学习,避免了预测误差被远距离点过度影响,也缓解了数据分布不平衡下的模型“偷懒”问题 [14] - 在生成过程中,噪声被直接施加在初始速度上,通过控制横向和纵向噪声的不同大小,可以调整模型对不同方向的学习难度和关注程度 [15] - 方案设置了K种噪声,推理时可根据算力需求和对多模态的依赖程度选择不同的K值 [15] - 方案包含一个轨迹选择器,将top-k的轨迹预测编码作为查询,环境信息作为键和值,结合自车状态嵌入,通过Transformer预测多个自定义的度量分数,以选择最佳轨迹 [16] - 残差监督设计将惯性部分从预测中剥离,使模型能更专注于学习驾驶行为的真正多样性部分,有效对抗了数据采集过程中匀速数据过多导致的不平衡分布问题 [17] - 轨迹选择器部分回答了关于轨迹稳定性的部分疑问,但仍有改进空间,例如可进一步设计为时序结构以提升选择的稳定性 [17]