Workflow
自动驾驶轨迹预测
icon
搜索文档
西交利物浦&港科最新!轨迹预测基座大模型综述
自动驾驶之心· 2025-09-25 07:33
文章核心观点 - 大型基础模型(LFMs)为自动驾驶轨迹预测带来了范式转变,从传统的信号级预测转向语义级推理,通过整合语言和情境知识提升了对复杂交通场景的理解能力 [1] - 基于LLM的方法在轨迹预测中展现出三大核心优势:强大的语义推理能力、对长尾场景的卓越泛化能力以及多模态信息的深度融合能力,显著提高了预测的可解释性和安全性 [11][20] - 尽管优势显著,该技术在实际应用中仍面临计算延迟高(自回归解码延迟常超过100毫秒,难以满足车辆控制周期低于50毫秒的严格要求)、数据稀缺以及真实世界鲁棒性等关键挑战 [20] 轨迹预测技术演变 - 轨迹预测技术经历了从基于物理模型和机器学习方法,到深度学习方法,再到当前以大型基础模型为主导的演变过程 [4][8] - 传统方法(如卡尔曼滤波器、高斯过程)计算高效但难以处理复杂交互场景,深度学习方法(端到端架构)能自动提取时空特征并生成多模态概率输出,但存在计算需求高、可解释性差等局限 [8][9] - 强化学习方法在交互场景建模和长期预测方面表现出色,但训练过程复杂且不稳定,存在“黑盒”问题 [9] 基于LLM的轨迹预测关键方法 - **轨迹-语言映射**:通过提示工程将轨迹数据编码为结构化文本(如“自车速度:12m/s”),或利用轨迹离散化技术(如VQ-VAE)将连续轨迹映射为离散符号序列,使LLM能够理解运动行为 [12] - **多模态融合**:设计共享的场景编码器(如BEV编码器)将图像、LiDAR点云和地图信息映射为统一表示,再与语言指令进行交叉注意力融合,典型框架包括DiMA和DrivingGPT [12] - **基于约束的推理**:利用LLM的常识知识,通过链式思维提示和规则注入(如交通规则)使轨迹生成过程透明且合规,例如CoT-Drive将预测分解为场景解析、交互分析等多步骤 [13] 实验基准与性能评估 - **主流数据集**:行人预测广泛使用ETH/UCY数据集,车辆轨迹预测则以Waymo Open Motion Dataset(WOMD)、nuScenes和Argoverse为主流基准,新兴数据集如nuPlan专注于闭环规划与预测的协同评估 [16] - **核心评估指标**:车辆轨迹预测主要关注L2距离(预测终点与真实终点的欧氏距离)和碰撞率,行人预测则主要使用minADE和minFDE(计算K=20个预测值中的最佳结果) [17] - **性能对比**:基于LLM的方法在关键指标上显著优于传统深度学习方法,例如DriveVLM-Dual在NuScenes数据集上的平均碰撞率仅为0.1%,而传统方法如UniAD为0.37% [18] 未来研究方向 - 发展超低延迟推理技术(如非自回归解码)以满足实时控制需求,解决当前自回归解码延迟超过100毫秒的问题 [21] - 构建面向运动的基础模型,通过大规模轨迹预训练提升模型的运动语义理解与生成能力 [21] - 推进世界感知与因果推理模型的研究,使轨迹预测建立在因果机制之上,而不仅仅是关联模式 [21]
二段式端到端新SOTA!港科大FiM:从Planning的角度重新思考轨迹预测(ICCV'25)
自动驾驶之心· 2025-07-26 21:30
核心观点 - 提出"先推理,后预测"策略,从规划视角重构轨迹预测任务,通过行为意图推理提升预测准确性和置信度 [4][11] - 开发奖励驱动意图推理器,结合以查询为中心的逆强化学习框架(QIRL)和最大熵逆强化学习(MaxEnt IRL) [8][14] - 设计分层DETR-like解码器集成双向选择性状态空间模型(Bi-Mamba),增强序列依赖关系捕捉能力 [9][26] - 在Argoverse和nuScenes数据集上实现SOTA性能,minFDE6指标达0.528-0.551,Brier分数0.594-0.629 [33][36] 技术框架 意图推理模块 - 采用网格级图表示场景布局,定义基于网格的推理遍历(GRT)作为意图序列 [5][19] - QIRL框架将向量化场景特征聚合为网格token,通过MaxEnt IRL推导奖励分布 [8][24] - 策略rollout生成多模态GRT序列,提取意图先验指导轨迹预测 [24][25] - 辅助时空占用网格图(OGM)预测头建模参与者未来交互,提升特征融合效果 [9][24] 轨迹解码架构 - 分层结构包含无锚点提议生成和基于锚点的优化两阶段 [25][26] - Bi-Mamba模型双向处理轨迹token,通过双CLS token实现前向-后向特征融合 [26][28] - 模态自注意力模块增强多模态预测,最终输出轨迹偏移量和概率分布 [26][28] - 消融实验验证Bi-Mamba比MLP基准提升brier-minFDE6达11.3% [40][43] 实验验证 定量结果 - Argoverse 1测试集:单模型brier-minFDE6 1.602,集成模型达1.131 [33][35] - Argoverse 2验证集:GRT-L变体minFDE6 0.528,优于DeMo(0.543)和QCNet(0.551) [34][36] - nuScenes数据集:超越当前所有排行榜模型,验证框架鲁棒性 [36] 消融分析 - 移除推理分支导致brier-minFDE6上升79.6%,验证意图推理关键作用 [37][38] - OGM模块贡献brier-minFDE6下降4.1%,优化模块贡献11.0% [39][40] - 双CLS token设计比单向Mamba提升分类精度3.2% [43][47] 行业应用 - 向量化表示结合Transformer架构成为自动驾驶轨迹预测主流技术路线 [12][19] - 强化学习范式在驾驶行为建模中展现潜力,为行业提供新研究基线 [47][55] - 长期意图监督(GRT-L)显著提升预测置信度,对量产系统具有实用价值 [34][35]