FastDrive - 财报，业绩电话会，研报，新闻

FastDrive

搜索文档

自动驾驶之心· 2025-06-23 19:34

端到端自动驾驶研究进展 - 将类人推理能力融入端到端自动驾驶系统成为前沿领域视觉语言模型(VLM)方法受到工业界和学术界广泛关注[1] - 现有VLM训练范式依赖自由格式文本标注存在同义表达复杂性和信息冗余问题增加模型学习难度和计算开销[1] - 基准模型通常依赖超70亿参数的大语言模型导致高昂计算成本、内存消耗和推理延迟[3] NuScenes-S结构化数据集 - 数据集包含102K问答对其中84K用于训练 18K用于测试[21] - 场景描述结构化要素包括：天气(5类)、交通状况(3类)、驾驶区域(7类)、交通灯(3类)、交通标志(8类)、道路状况(4类)、车道线(8类)、时间(2类)[7][8] - 感知预测任务包含：相机视角(6类)、2D边界框坐标、未来状态(7类)[12] - 决策任务分为横向移动(5类)和纵向移动(4类)[13] - 构建过程采用GPT预标注+人工细化的混合方式通过规则提取关键目标[9] FastDrive算法模型 - 采用0.9B参数紧凑设计相比传统70亿+参数模型大幅降低计算资源需求[4] - 网络架构遵循"ViT-Adapter-LLM"范式包含视觉编码器(ViT主干)和LLM代理(Qwen2.5)[17][19] - 引入TokenPacker模块减少标记数量提升推理速度[18] - 实现思维链式推理流程完成场景理解→感知→预测→决策的全流程[19] 实验性能表现 - 语言指标：FastDrive256版本BLEU-4达70.36 ROUGE_L达87.24 显著优于DriveLM基准[22] - 场景理解准确率：天气识别99.95% 交通标志识别87.64% 全面超越对比模型[22] - 预测决策任务：在车道线状态预测(76.49%)和纵向控制决策(82.06%)等关键指标领先[22][25] - 消融实验证实结构化标注使决策准确率提升12.8%[24][25] 技术社区生态 - 自动驾驶技术社区覆盖30+技术方向包括BEV感知、多传感器融合、轨迹预测等前沿领域[27] - 专业课程体系包含端到端自动驾驶、大模型部署、NeRF等20+细分方向[29] - 行业参与度：近300家企业和科研机构加入形成4000人规模交流社区[27]

End-to-End Autonomous Driving

Vision-Language Model

Autonomous Driving

FastDrive

NuScenes-S

End-to-End Autonomous Driving

Vision-Language Model

Autonomous Driving

FastDrive

NuScenes-S