Workflow
VisionTrap
icon
搜索文档
VisionTrap: VLM+LLM教会模型利用视觉特征更好实现轨迹预测
自动驾驶之心· 2025-08-21 07:33
文章核心观点 - 提出VisionTrap方法 通过引入环视摄像头视觉输入和文本描述监督 显著提升轨迹预测精度 同时保持53毫秒低延迟实现实时处理 [3][4][5] - 创建nuScenes文本数据集 利用VLM和LLM生成精细化文本标注 为每个场景中的每个智能体提供丰富的行为描述 [6][37][40] - 视觉语义编码器与文本驱动引导模块结合 使模型能捕捉人类凝视、手势、转向信号等关键视觉线索 较基线模型提升预测精度20%以上 [5][17][46] 技术方法创新 - 视觉语义编码器采用BEV特征与可变形注意力机制 将环境信息注入智能体特征 计算效率较全局注意力提升显著 [14][16] - 文本驱动模块通过多模态对比学习 使同一智能体的视觉与文本特征在嵌入空间中对齐 正负样本相似度阈值设为0.8 [19][21][24] - 轨迹解码器引入变换模块学习旋转不变性 输出采用高斯混合模型建模 损失函数包含轨迹负对数似然与InfoNCE对比损失 [26][32][36] 实验验证结果 - 在nuScenes数据集上测试 完整模型达到ADE10指标0.368 较仅使用地图编码器的基线模型提升9.6% [46][47] - 视觉输入使预测误差降低27.56% 文本引导模块进一步将误报率(MR10)从0.36降至0.32 [46] - UMAP可视化显示引入文本语义后 相似行为智能体的特征嵌入呈现明显聚类效应 [48][49] 数据集构建 - 微调VLM生成初始标注后经GPT细化 消除冗余信息并增强动作描述准确性 流程涉及边界框拼接与提示词优化 [37][42] - 数据集包含动态文本描述 能随智能体行为变化实时更新 如"行人停止交谈并开始过马路"等场景化表述 [40][51] - 相较DRAMA数据集单智能体单标题的局限性 新数据集提供多智能体多维度描述 更适配预测任务需求 [37]