Workflow
二段式SOTA!港科大FiM:从Planning的角度重新思考轨迹预测
自动驾驶之心·2025-08-10 00:03

核心观点 - 提出"先推理,后预测"策略,从规划视角重构轨迹预测任务,显著提升预测置信度和准确性 [9][48] - 开发基于奖励驱动的意图推理器,结合QIRL框架实现可解释的行为意图推理 [6][9][24] - 引入Bi-Mamba增强的分层DETR-like解码器,有效捕捉轨迹序列依赖关系 [27][29][48] - 在Argoverse和nuScenes数据集上超越多个SOTA模型,minFDE6降低5-15% [34][36][38] 技术框架 意图推理模块 - 采用网格级图表示场景布局,定义GRT作为离散决策序列 [5][17] - 基于MaxEnt IRL构建QIRL框架,学习参与者特定奖励分布 [6][14][23] - 通过策略rollout生成多模态GRT,提供意图先验指导 [24][26] - 辅助S-T OGM预测头建模未来交互,提升特征融合 [25][41] 轨迹解码架构 - 分层设计:首先生成无锚点轨迹提议,再进行基于锚点的优化 [26][27] - 双向Bi-Mamba结构处理轨迹序列,双向CLS token增强特征融合 [29][42] - 模态自注意力模块促进多模态交互,避免模态坍塌 [31][43] - 整体采用编码器-解码器结构,集成场景编码与轨迹生成 [18][20] 实验结果 定量指标 - Argoverse1测试集:Brier score 0.5732(集成模型),优于HPNet(0.5912) [34][35] - Argoverse2验证集:minFDE6 0.528,长期监督版本(GRT-L)表现最佳 [36] - nuScenes数据集:minADE10 0.78,MR10 0.23,全面领先现有方法 [37][38] 消融研究 - 移除推理分支导致brier-minFDE6上升44%(2.879→1.602) [40] - Bi-Mamba比单向结构降低Brier score 1.5%(0.603→0.594) [42] - OGM模块贡献约6%的minFDE6提升(1.670→1.602) [40][41] 行业应用 - 验证了RL范式在驾驶行为建模的可行性,为VLA时代提供技术基线 [48][54] - 课程内容显示VLA算法工程师岗位薪资达40-70K,反映技术需求 [54][55] - 知识星球社区覆盖30+技术栈,4000+成员包含300+企业与机构 [59]