自动驾驶轨迹预测技术
搜索文档
西交利物浦&港科最新!轨迹预测基座大模型综述
自动驾驶之心· 2025-09-25 07:33
文章核心观点 - 大型基础模型(LFMs)为自动驾驶轨迹预测带来了范式转变,从传统的信号级预测转向语义级推理,通过整合语言和情境知识提升了对复杂交通场景的理解能力 [1] - 基于LLM的方法在轨迹预测中展现出三大核心优势:强大的语义推理能力、对长尾场景的卓越泛化能力以及多模态信息的深度融合能力,显著提高了预测的可解释性和安全性 [11][20] - 尽管优势显著,该技术在实际应用中仍面临计算延迟高(自回归解码延迟常超过100毫秒,难以满足车辆控制周期低于50毫秒的严格要求)、数据稀缺以及真实世界鲁棒性等关键挑战 [20] 轨迹预测技术演变 - 轨迹预测技术经历了从基于物理模型和机器学习方法,到深度学习方法,再到当前以大型基础模型为主导的演变过程 [4][8] - 传统方法(如卡尔曼滤波器、高斯过程)计算高效但难以处理复杂交互场景,深度学习方法(端到端架构)能自动提取时空特征并生成多模态概率输出,但存在计算需求高、可解释性差等局限 [8][9] - 强化学习方法在交互场景建模和长期预测方面表现出色,但训练过程复杂且不稳定,存在“黑盒”问题 [9] 基于LLM的轨迹预测关键方法 - **轨迹-语言映射**:通过提示工程将轨迹数据编码为结构化文本(如“自车速度:12m/s”),或利用轨迹离散化技术(如VQ-VAE)将连续轨迹映射为离散符号序列,使LLM能够理解运动行为 [12] - **多模态融合**:设计共享的场景编码器(如BEV编码器)将图像、LiDAR点云和地图信息映射为统一表示,再与语言指令进行交叉注意力融合,典型框架包括DiMA和DrivingGPT [12] - **基于约束的推理**:利用LLM的常识知识,通过链式思维提示和规则注入(如交通规则)使轨迹生成过程透明且合规,例如CoT-Drive将预测分解为场景解析、交互分析等多步骤 [13] 实验基准与性能评估 - **主流数据集**:行人预测广泛使用ETH/UCY数据集,车辆轨迹预测则以Waymo Open Motion Dataset(WOMD)、nuScenes和Argoverse为主流基准,新兴数据集如nuPlan专注于闭环规划与预测的协同评估 [16] - **核心评估指标**:车辆轨迹预测主要关注L2距离(预测终点与真实终点的欧氏距离)和碰撞率,行人预测则主要使用minADE和minFDE(计算K=20个预测值中的最佳结果) [17] - **性能对比**:基于LLM的方法在关键指标上显著优于传统深度学习方法,例如DriveVLM-Dual在NuScenes数据集上的平均碰撞率仅为0.1%,而传统方法如UniAD为0.37% [18] 未来研究方向 - 发展超低延迟推理技术(如非自回归解码)以满足实时控制需求,解决当前自回归解码延迟超过100毫秒的问题 [21] - 构建面向运动的基础模型,通过大规模轨迹预训练提升模型的运动语义理解与生成能力 [21] - 推进世界感知与因果推理模型的研究,使轨迹预测建立在因果机制之上,而不仅仅是关联模式 [21]