模仿学习无法真正端到端?
自动驾驶之心·2025-10-09 07:33
模仿学习的核心问题与局限性 - 模仿学习的基本假设是专家数据提供了最优行为真值,但在驾驶这种多模态场景中不存在唯一完美驾驶行为 [2] - 训练数据来源于风格、技术和礼让程度各异的真人驾驶,这些数据缺乏一致性且难以称为最优,导致模型学不到清晰正确的驾驶逻辑 [3] - 纯粹基于模仿学习的模型难以学到具有强逻辑和因果关系的拟人驾驶策略,反而表现出极强的随机性和不确定性 [4] 模仿学习在决策权重上的缺陷 - 模仿学习将人驾数据中每个时刻的真值正确性视为等权重,无法区分关键场景决策与普通场景决策的重要性 [5] - 由于训练阶段没有对不同的场景决策区别对待,模型在关键时刻容易犯下致命错误,导致输出不可完全信赖 [5] - 自动驾驶领域充满关键场景,纯粹模仿学习系统在一般场景可能表现良好,但在关键场景(如旁车紧急切入)则难以输出符合安全要求的轨迹 [7] 模仿学习的累积误差与分布外问题 - 开环模仿学习会因Policy与最优解之间的微小误差累积,导致自车进入训练数据分布之外的驾驶状态 [8] - 当模型进入人驾数据中罕见的驾驶状态时,其行为难以预判,造成性能显著下降 [8][12] - 实车表现上,模型可能因非最优行为导致迟迟不能变道,而很晚变道的现象在人驾数据中少见,最终在关键时刻容易放弃并导致接管 [13] 技术研发的关键方向 - 技术研发的核心在于识别关键路线和瓶颈,而非紧追技术潮流 [14] - 随着端到端技术方案实践经验的增长,行业意识到问题在于寻找模仿学习训练范式之外的新方法来解决其技术瓶颈 [14]