Trajectory Prediction - 财报，业绩电话会，研报，新闻

Trajectory Prediction

搜索文档

ICCV'25港科大“先推理，后预测”：引入奖励驱动的意图推理，让轨迹预测告别黑箱！

自动驾驶之心· 2025-08-29 11:08

核心观点 - 引入"先推理，后预测"策略，通过奖励驱动的意图推理器提升轨迹预测的可解释性和可靠性 [5][8][10] - 提出FiM模型，在Argoverse和nuScenes基准测试中实现极具竞争力的性能，部分指标超越最先进模型 [10][33][36] - 结合强化学习范式（MaxEnt IRL）和结构化解码器（Bi-Mamba），显著提高预测准确性和置信度 [8][9][10] 方法框架 - 采用编码器-解码器结构，包含以查询为中心的场景编码器、Mamba增强的解码器和奖励驱动的意图推理器 [14][16] - 通过QIRL框架将MaxEnt IRL与矢量化上下文结合，学习奖励分布并生成意图序列（GRT） [8][18] - 使用辅助的时空占用网格地图（OGM）预测头建模未来交互，增强特征融合 [9][18] - 分层DETR类解码器生成轨迹提议，并通过Bi-Mamba结构捕获序列依赖关系 [9][19][21] 实验性能 - 在Argoverse 1测试集上，FiM的MR6为0.1087，minFDE6为1.1199，Brier分数为0.5732，部分指标领先HiVT、Scene Transformer等模型 [32][33] - 在Argoverse 2验证集上，FiM变体的minFDE6为0.528–0.530，优于DeMo（0.543）和QCNet（0.551） [34][35] - 在nuScenes数据集上，FiM的minADE10为0.78，MR10为0.23，显著超越P2T、THOMAS等模型 [36] 技术贡献 - QIRL模块有效替代交叉注意力机制，在消融实验中brier-minFDE6从2.132降至1.602 [37][38] - OGM和细化模块分别将brier-minFDE6从1.670和1.801优化至1.602 [40] - Bi-Mamba结构相比单向Mamba降低brier-minFDE6从1.636至1.602，验证双向扫描机制优势 [41][42] - 最优Mamba层深度为6层，更深层可能导致性能下降 [43]

Intention Inference

Reinforcement Learning

Trajectory Prediction

Autonomous Driving

FiM (Foresight in Motion)

Intention Inference

Reinforcement Learning

Trajectory Prediction

Autonomous Driving

FiM (Foresight in Motion)

VisionTrap: VLM+LLM教会模型利用视觉特征更好实现轨迹预测

自动驾驶之心· 2025-08-21 07:33

文章核心观点 - 提出VisionTrap方法通过引入环视摄像头视觉输入和文本描述监督显著提升轨迹预测精度同时保持53毫秒低延迟实现实时处理 [3][4][5] - 创建nuScenes文本数据集利用VLM和LLM生成精细化文本标注为每个场景中的每个智能体提供丰富的行为描述 [6][37][40] - 视觉语义编码器与文本驱动引导模块结合使模型能捕捉人类凝视、手势、转向信号等关键视觉线索较基线模型提升预测精度20%以上 [5][17][46] 技术方法创新 - 视觉语义编码器采用BEV特征与可变形注意力机制将环境信息注入智能体特征计算效率较全局注意力提升显著 [14][16] - 文本驱动模块通过多模态对比学习使同一智能体的视觉与文本特征在嵌入空间中对齐正负样本相似度阈值设为0.8 [19][21][24] - 轨迹解码器引入变换模块学习旋转不变性输出采用高斯混合模型建模损失函数包含轨迹负对数似然与InfoNCE对比损失 [26][32][36] 实验验证结果 - 在nuScenes数据集上测试完整模型达到ADE10指标0.368 较仅使用地图编码器的基线模型提升9.6% [46][47] - 视觉输入使预测误差降低27.56% 文本引导模块进一步将误报率(MR10)从0.36降至0.32 [46] - UMAP可视化显示引入文本语义后相似行为智能体的特征嵌入呈现明显聚类效应 [48][49] 数据集构建 - 微调VLM生成初始标注后经GPT细化消除冗余信息并增强动作描述准确性流程涉及边界框拼接与提示词优化 [37][42] - 数据集包含动态文本描述能随智能体行为变化实时更新如"行人停止交谈并开始过马路"等场景化表述 [40][51] - 相较DRAMA数据集单智能体单标题的局限性新数据集提供多智能体多维度描述更适配预测任务需求 [37]

Trajectory Prediction

Visual-Language Model (VLM)

Large-Language Model (LLM)

Multi-modal Contrastive Learning

Autonomous Driving

VisionTrap

Trajectory Prediction

Visual-Language Model (VLM)

Large-Language Model (LLM)

Multi-modal Contrastive Learning

Autonomous Driving

VisionTrap

Qcnet->SmartRefine->Donut：Argoverse v2上SOTA的进化之路~

自动驾驶之心· 2025-07-31 14:19

自动驾驶轨迹预测技术研究进展 - 论文DONUT基于decoder-only架构配合overprediction策略在argoversev2数据集上取得SOTA表现 [1] - SmartRefine和DONUT均以QCNet为基础进行改进并取得SOTA成绩 [1] QCNet关键技术分析 - 采用以查询为中心的场景编码范式，使模型表示独立于全局时空坐标系 [2] - 提出propose+refine两阶段轨迹解码范式，首先生成无锚query轨迹proposal，再基于锚点细化预测 [2] - 传统场景编码方式依赖当前时刻直角坐标系，无法复用历史计算特征 [3] - 创新性使用极坐标系表示agent状态，以位置为极点、heading vector为极轴 [5] - 采用傅里叶特征编码agent位移矢量、速度矢量等状态信息 [5] - 构建4D描述符表示agent间相对状态，包含距离、相对方向等要素 [6][7] - 地图元素处理分为polygon级别和点级别，类似VectorNet方法 [12][13] SmartRefine改进要点 - 对QCNet的refine部分进行改进，提出自适应anchor选择机制 [30] - 引入动态上下文获取范围机制，范围取决于迭代次数和agent速度 [31] - 提出anchor-centric上下文编码，将特征转换到锚点坐标系下 [34] - 采用循环多迭代细化策略，每条轨迹分为N个片段逐步优化 [35] - 创新性提出质量评分机制，实现自适应控制refine迭代次数 [38] DONUT模型创新 - 采用decoder-only架构，包含proposer和refiner两个核心模块 [40] - 引入overprediction机制，预测当前及下一子轨迹片段 [41] - 使用tokenizer对轨迹片段进行编码，结合MLP输出多模态概率 [43] - 在非ensembling模型中表现优异，与DeMo互有胜负 [48] - 消融实验显示decoder-only架构带来显著性能提升 [49] 行业技术发展趋势 - 自动驾驶技术社区快速发展，已建立近百个技术交流群 [51] - 行业关注重点包括大模型、端到端自动驾驶、BEV感知等前沿方向 [51] - 轨迹预测领域持续创新，QCNet及其改进模型推动技术进步 [1][30][40]

Trajectory Prediction

Decoder-Only Model

Overprediction Strategy

Autonomous Driving

DONUT

SmartRefine

Trajectory Prediction

Decoder-Only Model

Overprediction Strategy

自动驾驶之心· 2025-07-29 15:53

自动驾驶技术交流平台 - 公司是国内领先的自动驾驶技术交流平台专注于自动驾驶产业学术与职场成长等领域 [1] - 平台提供技术交流群涵盖大模型端到端 VLA BEV感知多模态感知等前沿技术方向 [1] - 交流范围包括感知规划控制仿真测试硬件配置等自动驾驶全产业链环节 [1] - 平台面向企业高校研究人员开放需提供公司/学校昵称和研究方向信息加入 [1]

Point Cloud Processing

Point Cloud Processing

SLAM