博世最新一篇长达41页的自动驾驶轨迹规划综述

文章核心观点 - 博世发布了一篇关于基础模型在自动驾驶轨迹规划中应用的重量级综述，系统梳理了37种近期方法，提出了统一分类法，并批判性评估了其设计、优势与局限，旨在为该快速发展的领域建立结构化基础并指明未来方向 [2][11] 背景回顾 - 基础模型是利用海量数据学习表征并可适配多种下游任务的大规模模型，如大型语言模型和视觉语言模型 [4] - 研究表明，未经自动驾驶专门训练的现成基础模型已能令人惊讶地良好理解复杂驾驶场景，这使其成为构建自动驾驶专用方案的潜力基础，也是当前行业范式转变的关键驱动力 [5] - 轨迹规划是驾驶过程最核心的任务，其他能力均为其提供辅助，因此综述重点聚焦于基础模型如何助力轨迹规划模型 [8] 分层分类体系 - 利用基础模型的轨迹规划方法可分为两大主类别：为轨迹规划定制的基础模型、指导轨迹规划的基础模型 [16] - 为轨迹规划定制的基础模型：通过微调现有预训练基础模型，直接用于自动驾驶场景，共22种方法，可进一步分为仅专注于轨迹规划的模型和具备额外能力的模型 [19][20] - 指导轨迹规划的基础模型：不构建专用模型，而是将现成基础模型的知识转移到现有自动驾驶模型中，共15种方法，可根据知识转移发生在训练阶段或推理阶段进一步划分 [20][21][22] 为轨迹规划定制的基础模型 - 微调核心要素：包括数据整理、模型设计和训练策略 [23] - 数据整理：取决于模型用例，仅用于轨迹规划的数据集核心是“观测-轨迹”数据对；若需语言或动作交互能力，则需补充相应的问答对或指令-轨迹对数据 [24][28] - 模型设计：主流思路包括直接使用现成视觉语言模型，或组合视觉编码器与大型语言模型并通过视觉适配器连接 [27][29] - 轨迹表征：常见方式包括将轨迹作为文本生成、作为离散化的动作token、或作为数值集合通过附加的规划头单次生成 [31] - 模型训练：通常通过单阶段或多阶段完成，例如先训练视觉适配器，再微调全部或部分参数 [29] - 仅专注于轨迹规划的模型：根据是否使用思维链及使用方式，可细分为无思维链、文本输出作为思维链、初始轨迹预测作为思维链三类 [25][32] - 具备额外能力的模型：除轨迹规划外，还具备语言交互和/或动作交互能力 [38] - 语言交互能力：需要视觉问答数据对进行训练，评估采用自然语言处理领域的经典指标 [38][39][40] - 动作交互能力：可根据用户指令规划轨迹，目前方法均在CARLA模拟器的合成数据集上训练，需具备规避误导性指令的机制 [43] 指导轨迹规划的基础模型 - 仅在训练阶段进行知识蒸馏的模型：推理阶段无需调用基础模型，能保持效率，方法包括将CLIP表征对齐到端到端模型中，或利用GPT-4o输出元动作进行蒸馏等 [48][49][51] - 在推理阶段进行知识转移的模型：训练和推理阶段都调用基础模型，计算成本更高，根据转移知识类型可分为转移场景描述、转移规划决策、或同时转移两者 [48][53] - 知识转移类型：包括场景描述、元动作、轨迹等，通过不同编码方式融入到自动驾驶模型的各个层级 [53][54][55] 现有方法的数据集与代码开放性 - 开放性是推动研究进展和实际部署的关键，但无任何一种方法的所有资产均支持研究与商业双用途 [57][59] - 仅有5种方法公开了所有资产，但部分仍限制商业使用，其中4种属于“为轨迹规划定制的基础模型”，1种属于“指导模块化自动驾驶模型轨迹规划的基础模型” [59] - “指导端到端自动驾驶模型轨迹规划的基础模型”类别尚无开源实现，训练代码与模型权重是限制最严格的资产 [59] 开放问题与挑战 - 高推理成本导致部署困难：基础模型参数庞大且自回归生成，导致推理延迟高，难以满足实际部署所需的10-30帧/秒帧率要求，例如Orion模型在A800 GPU上推理帧率仅为0.8帧/秒 [63] - 微调后的能力下降：微调可能导致视觉语言模型丧失对轨迹规划潜在有用的能力，出现“概念遗忘”现象 [64][66] - 动作交互能力局限：现有模型仅能处理短时域内可执行的指令，无法拆解和执行人类化的复杂多步指令 [68] - 仿真到现实的差距：所有具备动作交互能力的模型均在合成场景中训练测试，存在域转移问题，阻碍实际部署 [69] - 性能影响因素不明：不同方法在架构、数据、训练上差异巨大，难以厘清导致性能差异的核心因素 [70] - 缺乏推理能力评估基准：需要建立标准基准来评估模型在复杂语言-视觉场景下的推理能力 [71]