Workflow
视觉语言轨迹预训练
icon
搜索文档
CVPR2025 WAD纯视觉端到端 | 冠军方案技术报告~
自动驾驶之心· 2025-06-29 19:33
技术方案 - 采用3B参数VLM模型解决视觉端到端自动驾驶长尾场景问题 [1] - 两阶段训练方法:阶段一预训练采用自监督方式,使用83小时CoVLA数据和11小时Waymo长尾数据集进行next-token prediction训练 [2] - 阶段二微调使用500段人工标注数据,采用GPRO强化学习方法增强模型鲁棒性 [2] 数据集 - 使用Qwen2.5-VL 72B Instruct模型自动标注WOD-E2E和CoVLA数据集,生成240.5K高质量caption [3] - CoVLA数据集包含10000张前视图片,30秒20Hz日本驾驶视频 [11] - WOD-E2E数据集提供4021段长尾驾驶场景,每段20秒10Hz,8个相机 [11] 模型训练 - 预训练采用Qwen-2.5-VL-3B-Instruct模型,CoVLA VLT训练24小时,WOD-E2E VLT训练10小时 [11] - RL后训练进行2000steps,8 rollouts per sample,耗时12小时 [11] - 推理阶段使用1e-6 temperature for CoT,Greedy decoding for trajectory prediction [11] 评估结果 - 在Waymo test set RFS评分达到7.99,排名第一 [2] - Poutine方案7.99分,Poutine-base 7.91分,RL提升效果不明显但解决头部困难问题 [13] - 验证集消融实验显示Poutine-base No CoVLA得分7.95,Poutine-base No Lang得分7.94 [15] 技术特点 - 将轨迹预测建模为四阶段COT推理序列问题 [9] - 预测5个waypoints后使用cubic-spiline插值生成密集轨迹 [9] - 评估采用RFS指标,通过三个专家打分构建信任区域计算 [11] 行业思考 - 基于VLM/LLM的轨迹预测方法在长尾场景表现优异,但对物理世界理解仍有限 [19] - 3B模型目前尚无法支持10Hz城区NOA,主要作为慢系统配合工作 [19] - VLM+Action model的VLA架构可能是更合理的解决方案 [19]