Impromptu VLA数据集

搜索文档
8万条!清华开源VLA数据集:面向自动驾驶极端场景,安全提升35%
自动驾驶之心· 2025-07-22 20:46
自动驾驶技术发展 - 自动驾驶技术在结构化环境(如城市道路与高速公路)已取得显著进展,但非结构化场景(如乡村小径、标识模糊路段、灾后修复区域)仍是关键突破口 [4] - 非结构化场景的挑战包括道路边界模糊、非常规动态障碍物、临时交通规则变动及复杂路况,这些场景对自动驾驶系统的鲁棒性提出更高要求 [5][12][13] Impromptu VLA数据集 - 数据集包含8万余条精选视频片段,提炼自8个开源数据集的200余万条原始素材,聚焦四大非结构化场景:边界模糊道路、临时交通规则变动、非常规动态障碍物及复杂路况 [5][8][12] - 数据集采用多任务标注系统与路径规划轨迹数据增强,通过视觉-语言模型(VLMs)进行思维链推理和人工核验确保高质量标注 [5][16][17] - 数据集构建流程包括关键片段筛选、稳定性过滤、基于思维链的场景分类与结构化信息提取、多任务标注生成及全量人工核验 [15][16][17][18] 实验与性能提升 - 基于Impromptu VLA微调的视觉-语言模型(VLA)在NeuroNCAP闭环测试中平均得分从1.77/5.00提升至2.15/5.00,碰撞率从72.5%降至65.5% [6][21][22] - 在nuScenes开环轨迹预测评估中,微调模型的平均L2误差降至0.30m,性能逼近EMMA+等专用方法(0.29m) [6][23][24] - 模型在非结构化场景下的感知、预测与规划能力均呈现显著提升,例如交通弱势群体感知准确率从0.87提升至0.91,动态物体预测准确率从0.20提升至0.92 [26][27] 行业应用与展望 - Impromptu VLA数据集为开发更鲁棒、自适应的自动驾驶系统提供了关键资源,尤其在非结构化场景的应对能力上具有重大价值 [29] - 自动驾驶行业正围绕端到端自动驾驶、大模型、VLA、仿真测试等技术方向展开深入研究,涉及感知、定位、规划控制等多个领域 [31][33]