Workflow
FastDrive
icon
搜索文档
上交&卡尔动力FastDrive!结构化标签实现端到端大模型更快更强~
自动驾驶之心· 2025-06-23 19:34
端到端自动驾驶研究进展 - 将类人推理能力融入端到端自动驾驶系统成为前沿领域 视觉语言模型(VLM)方法受到工业界和学术界广泛关注[1] - 现有VLM训练范式依赖自由格式文本标注 存在同义表达复杂性和信息冗余问题 增加模型学习难度和计算开销[1] - 基准模型通常依赖超70亿参数的大语言模型 导致高昂计算成本、内存消耗和推理延迟[3] NuScenes-S结构化数据集 - 数据集包含102K问答对 其中84K用于训练 18K用于测试[21] - 场景描述结构化要素包括:天气(5类)、交通状况(3类)、驾驶区域(7类)、交通灯(3类)、交通标志(8类)、道路状况(4类)、车道线(8类)、时间(2类)[7][8] - 感知预测任务包含:相机视角(6类)、2D边界框坐标、未来状态(7类)[12] - 决策任务分为横向移动(5类)和纵向移动(4类)[13] - 构建过程采用GPT预标注+人工细化的混合方式 通过规则提取关键目标[9] FastDrive算法模型 - 采用0.9B参数紧凑设计 相比传统70亿+参数模型大幅降低计算资源需求[4] - 网络架构遵循"ViT-Adapter-LLM"范式 包含视觉编码器(ViT主干)和LLM代理(Qwen2.5)[17][19] - 引入TokenPacker模块减少标记数量 提升推理速度[18] - 实现思维链式推理流程 完成场景理解→感知→预测→决策的全流程[19] 实验性能表现 - 语言指标:FastDrive256版本BLEU-4达70.36 ROUGE_L达87.24 显著优于DriveLM基准[22] - 场景理解准确率:天气识别99.95% 交通标志识别87.64% 全面超越对比模型[22] - 预测决策任务:在车道线状态预测(76.49%)和纵向控制决策(82.06%)等关键指标领先[22][25] - 消融实验证实结构化标注使决策准确率提升12.8%[24][25] 技术社区生态 - 自动驾驶技术社区覆盖30+技术方向 包括BEV感知、多传感器融合、轨迹预测等前沿领域[27] - 专业课程体系包含端到端自动驾驶、大模型部署、NeRF等20+细分方向[29] - 行业参与度:近300家企业和科研机构加入 形成4000人规模交流社区[27]