核心观点 - 论文提出一种无需梯度计算、基于离散Diffusion的安全轨迹生成框架,旨在更高效地生成更安全的自动驾驶轨迹,提升辅助驾驶的安心感 [1] - 该框架的核心价值在于将离散思想引入轨迹生成,并采用反思机制进行轨迹修正,全过程无需梯度计算 [2] - 框架被设计为一种从黑盒到灰盒的解决方案,在数据驱动的模型中嵌入硬性逻辑约束 [9] 技术框架与流程 - 框架采用两阶段推理过程:第一阶段为目标导向的轨迹生成,第二阶段为安全引导的轨迹再生成 [2][3][5] - 目标导向的轨迹生成阶段旨在生成一组多样化的完整轨迹方案,并从中选出最优的一个作为后续修正基础 [3] - 该阶段工作流程包括生成候选目标点、确保目标点多样性、生成完整轨迹及选出最佳轨迹 [4] - 安全引导的轨迹再生成阶段是一个无需梯度计算的迭代式修正循环,核心是生成模型与外部安全预言家之间的对话 [5] - 此循环步骤包括轨迹评估、安全锚点搜索和轨迹修复,循环进行直至轨迹完全安全或达到计算预算 [6][7][8][9] 技术优势与创新 - 通过离散Diffusion将轨迹问题转化为语言模型擅长的完形填空类问题,可直接利用预训练Diffusion语言模型能力 [2] - 采用并行方式一次性生成所有轨迹点,相比自回归模型逐个生成的方式效率更高 [2] - 反思机制通过评估-搜索-修复来修正不安全轨迹点,无需梯度计算,避免了传统扩散模型计算成本高、采样速度慢、参数敏感的问题 [2] - 在一个依赖于数据概率分布的学习模型中,嵌入能够执行硬性逻辑约束的机制,同时不破坏模型本身的泛化能力和行为连贯性 [9] 行业痛点与解决方案 - 当前行业难点在于仅依赖强化学习会导致reward hack问题,很难写出全面的reward适用连续轨迹复杂的三维空间 [2][11] - 常见的VLA结构存在语义决策、驾驶指导和动作模块被分割成多个系统的问题,导致结果不一致和脑裂问题 [11] - 模仿学习安全性不能保证,强化学习难以平衡效率和安全,Diffusion planner也需要求解reward梯度且复杂场景下难计算准确 [11] - VLA难点在于算力限制,直接输出轨迹耗时太长,增加轨迹解码器又涉及中间传递信息不足的问题 [12] - 行业迫切需要实现L模态和A模态的融合,以及一种更容易扩展的统一架构,同时做到高效生成 [13]
ReflectDrive将有助于理想辅助驾驶安心感提升