文章核心观点 - 文章对地平线公司提出的两篇关于一段式端到端自动驾驶方案的核心论文进行了技术解读,重点分析了DiffusionDrive和ResAD两篇工作的核心思想、架构设计及技术亮点,认为这些工作为行业从业者提供了重要启发 [2][3][18] DiffusionDrive方案总结 - 整体架构可分为感知信息、导航信息和轨迹生成三部分 [6] - 感知信息部分的核心是将感知任务的信息表征传递给规划器,一段式方案可采用稠密BEV特征图或稀疏实例特征等不同玩法 [6] - 导航信息的融合在实践中挑战巨大,特别是在复杂路况下,算法设计需结合具体导航平台、信息丰富度和定位能力 [7] - 轨迹生成部分的核心创新是“Truncated Diffusion”方法,其灵感源于人类驾驶行为具有固定模式这一观察 [8] - 该方法首先从训练集中通过K-Means聚类出N个描述常见驾驶行为的轨迹序列作为锚点 [9] - 在训练中对这些锚点轨迹进行弱加噪,从而降低去噪所需的步数,减少了训练收敛难度和推理时的去噪次数需求 [8][9] - 训练时计算与真值轨迹最接近的锚点对应的去噪轨迹损失,并预测每个锚点的存在性 [9] - 该锚点式轨迹生成方法降低了训练难度并提高了推理实时性,但文章未涉及系统时序模块以保障轨迹稳定性 [10] ResAD方案总结 - 整体架构的核心创新在于残差设计,模型不直接生成未来轨迹,而是预测未来轨迹与惯性外推轨迹之间的残差 [12] - 由于距离当前时刻越远残差越大,需要对时序上的残差进行正则化处理,以压缩其区间 [13] - 正则化后的残差分布在不同未来时刻表现得更一致,这有助于模型学习,避免了预测误差被远距离点过度影响,也缓解了数据分布不平衡下的模型“偷懒”问题 [14] - 在生成过程中,噪声被直接施加在初始速度上,通过控制横向和纵向噪声的不同大小,可以调整模型对不同方向的学习难度和关注程度 [15] - 方案设置了K种噪声,推理时可根据算力需求和对多模态的依赖程度选择不同的K值 [15] - 方案包含一个轨迹选择器,将top-k的轨迹预测编码作为查询,环境信息作为键和值,结合自车状态嵌入,通过Transformer预测多个自定义的度量分数,以选择最佳轨迹 [16] - 残差监督设计将惯性部分从预测中剥离,使模型能更专注于学习驾驶行为的真正多样性部分,有效对抗了数据采集过程中匀速数据过多导致的不平衡分布问题 [17] - 轨迹选择器部分回答了关于轨迹稳定性的部分疑问,但仍有改进空间,例如可进一步设计为时序结构以提升选择的稳定性 [17]
摸底地平线HSD一段式端到端的方案设计
自动驾驶之心·2025-12-30 08:28