Trajectory Prediction

搜索文档
ICCV'25港科大“先推理,后预测”:引入奖励驱动的意图推理,让轨迹预测告别黑箱!
自动驾驶之心· 2025-08-29 11:08
核心观点 - 引入"先推理,后预测"策略,通过奖励驱动的意图推理器提升轨迹预测的可解释性和可靠性 [5][8][10] - 提出FiM模型,在Argoverse和nuScenes基准测试中实现极具竞争力的性能,部分指标超越最先进模型 [10][33][36] - 结合强化学习范式(MaxEnt IRL)和结构化解码器(Bi-Mamba),显著提高预测准确性和置信度 [8][9][10] 方法框架 - 采用编码器-解码器结构,包含以查询为中心的场景编码器、Mamba增强的解码器和奖励驱动的意图推理器 [14][16] - 通过QIRL框架将MaxEnt IRL与矢量化上下文结合,学习奖励分布并生成意图序列(GRT) [8][18] - 使用辅助的时空占用网格地图(OGM)预测头建模未来交互,增强特征融合 [9][18] - 分层DETR类解码器生成轨迹提议,并通过Bi-Mamba结构捕获序列依赖关系 [9][19][21] 实验性能 - 在Argoverse 1测试集上,FiM的MR6为0.1087,minFDE6为1.1199,Brier分数为0.5732,部分指标领先HiVT、Scene Transformer等模型 [32][33] - 在Argoverse 2验证集上,FiM变体的minFDE6为0.528–0.530,优于DeMo(0.543)和QCNet(0.551) [34][35] - 在nuScenes数据集上,FiM的minADE10为0.78,MR10为0.23,显著超越P2T、THOMAS等模型 [36] 技术贡献 - QIRL模块有效替代交叉注意力机制,在消融实验中brier-minFDE6从2.132降至1.602 [37][38] - OGM和细化模块分别将brier-minFDE6从1.670和1.801优化至1.602 [40] - Bi-Mamba结构相比单向Mamba降低brier-minFDE6从1.636至1.602,验证双向扫描机制优势 [41][42] - 最优Mamba层深度为6层,更深层可能导致性能下降 [43]
VisionTrap: VLM+LLM教会模型利用视觉特征更好实现轨迹预测
自动驾驶之心· 2025-08-21 07:33
文章核心观点 - 提出VisionTrap方法 通过引入环视摄像头视觉输入和文本描述监督 显著提升轨迹预测精度 同时保持53毫秒低延迟实现实时处理 [3][4][5] - 创建nuScenes文本数据集 利用VLM和LLM生成精细化文本标注 为每个场景中的每个智能体提供丰富的行为描述 [6][37][40] - 视觉语义编码器与文本驱动引导模块结合 使模型能捕捉人类凝视、手势、转向信号等关键视觉线索 较基线模型提升预测精度20%以上 [5][17][46] 技术方法创新 - 视觉语义编码器采用BEV特征与可变形注意力机制 将环境信息注入智能体特征 计算效率较全局注意力提升显著 [14][16] - 文本驱动模块通过多模态对比学习 使同一智能体的视觉与文本特征在嵌入空间中对齐 正负样本相似度阈值设为0.8 [19][21][24] - 轨迹解码器引入变换模块学习旋转不变性 输出采用高斯混合模型建模 损失函数包含轨迹负对数似然与InfoNCE对比损失 [26][32][36] 实验验证结果 - 在nuScenes数据集上测试 完整模型达到ADE10指标0.368 较仅使用地图编码器的基线模型提升9.6% [46][47] - 视觉输入使预测误差降低27.56% 文本引导模块进一步将误报率(MR10)从0.36降至0.32 [46] - UMAP可视化显示引入文本语义后 相似行为智能体的特征嵌入呈现明显聚类效应 [48][49] 数据集构建 - 微调VLM生成初始标注后经GPT细化 消除冗余信息并增强动作描述准确性 流程涉及边界框拼接与提示词优化 [37][42] - 数据集包含动态文本描述 能随智能体行为变化实时更新 如"行人停止交谈并开始过马路"等场景化表述 [40][51] - 相较DRAMA数据集单智能体单标题的局限性 新数据集提供多智能体多维度描述 更适配预测任务需求 [37]
Qcnet->SmartRefine->Donut:Argoverse v2上SOTA的进化之路~
自动驾驶之心· 2025-07-31 14:19
自动驾驶轨迹预测技术研究进展 - 论文DONUT基于decoder-only架构配合overprediction策略在argoversev2数据集上取得SOTA表现 [1] - SmartRefine和DONUT均以QCNet为基础进行改进并取得SOTA成绩 [1] QCNet关键技术分析 - 采用以查询为中心的场景编码范式,使模型表示独立于全局时空坐标系 [2] - 提出propose+refine两阶段轨迹解码范式,首先生成无锚query轨迹proposal,再基于锚点细化预测 [2] - 传统场景编码方式依赖当前时刻直角坐标系,无法复用历史计算特征 [3] - 创新性使用极坐标系表示agent状态,以位置为极点、heading vector为极轴 [5] - 采用傅里叶特征编码agent位移矢量、速度矢量等状态信息 [5] - 构建4D描述符表示agent间相对状态,包含距离、相对方向等要素 [6][7] - 地图元素处理分为polygon级别和点级别,类似VectorNet方法 [12][13] SmartRefine改进要点 - 对QCNet的refine部分进行改进,提出自适应anchor选择机制 [30] - 引入动态上下文获取范围机制,范围取决于迭代次数和agent速度 [31] - 提出anchor-centric上下文编码,将特征转换到锚点坐标系下 [34] - 采用循环多迭代细化策略,每条轨迹分为N个片段逐步优化 [35] - 创新性提出质量评分机制,实现自适应控制refine迭代次数 [38] DONUT模型创新 - 采用decoder-only架构,包含proposer和refiner两个核心模块 [40] - 引入overprediction机制,预测当前及下一子轨迹片段 [41] - 使用tokenizer对轨迹片段进行编码,结合MLP输出多模态概率 [43] - 在非ensembling模型中表现优异,与DeMo互有胜负 [48] - 消融实验显示decoder-only架构带来显著性能提升 [49] 行业技术发展趋势 - 自动驾驶技术社区快速发展,已建立近百个技术交流群 [51] - 行业关注重点包括大模型、端到端自动驾驶、BEV感知等前沿方向 [51] - 轨迹预测领域持续创新,QCNet及其改进模型推动技术进步 [1][30][40]
自动驾驶之心技术交流群来啦!
自动驾驶之心· 2025-07-29 15:53
自动驾驶技术交流平台 - 公司是国内领先的自动驾驶技术交流平台 专注于自动驾驶产业 学术与职场成长等领域 [1] - 平台提供技术交流群 涵盖大模型 端到端 VLA BEV感知 多模态感知等前沿技术方向 [1] - 交流范围包括感知 规划控制 仿真测试 硬件配置等自动驾驶全产业链环节 [1] - 平台面向企业 高校研究人员开放 需提供公司/学校 昵称和研究方向信息加入 [1]