Workflow
SOTA端到端算法如何设计?CVPR'25 WOD纯视觉端到端比赛Top3技术分享~
自动驾驶之心·2025-06-25 17:54

CVPR2025 WOD纯视觉端到端比赛结果 - 冠军方案来自EPFL团队,采用DiffusionDrive框架,结合nuPlan数据集和集成策略 [1] - 亚军方案由Nvidia & Tubingen团队提出,参考DiffusionDrive和SmartRefine,使用4个不同数据集并验证训练数据顺序的重要性 [1] - 季军方案来自韩国汉阳大学,采用简洁结构设计,仅使用前视图+自车状态输入 [1] - 特别奖方案使用QWen2 5-VL大模型生成CoT数据,在3B模型上训练 [1] 比赛背景与数据集 - 比赛聚焦长尾驾驶场景评估,包含4021个20秒驾驶片段,其中2037个用于训练 [2] - 参赛者需使用8个周围摄像头数据,在鸟瞰图坐标系下预测5秒路径点轨迹 [2] - 评分主要采用"评分反馈得分"(RFS),"平均位移误差"(ADE)作为平局判定标准 [2] 季军方案技术细节 - 采用极简主义设计Swin-Trajectory,仅使用单前置摄像头和自车历史信息 [41] - 基于Swin Transformer骨干网络,在RTX 4090上实现14ms推理速度 [41] - 使用三维位置编码为密集图像特征提供几何基础 [44] - 通过交叉注意力机制融合图像特征与路径点查询 [46] 亚军方案技术亮点 - 提出Open-X AV(OXAV)框架整合多种AV数据集 [22] - 采用两阶段训练流程:感知导向数据预训练+规划导向场景后训练 [26] - 使用ResNet34骨干网络,仅需单块A100 GPU训练一天 [26] - 模型集成显著提升RFS评分,证明聚合多个模型预测的优势 [37] 行业技术趋势 - 端到端自动驾驶方法展现出替代传统模块化架构的潜力 [2] - 跨数据集学习成为提升模型泛化能力的重要方向 [26] - 轻量化模型设计在保持性能的同时降低计算成本 [41] - 扩散模型在轨迹生成领域展现出高效性和多样性优势 [4]