基于开源Qwen2.5-VL实现自动驾驶VLM微调

自动驾驶技术框架与模型 - LLaMA Factory是一款开源低代码大模型微调框架，集成业界广泛使用的微调技术，GitHub星标超过4万，成为开源社区最受欢迎的微调框架之一 [3] - 项目基于Qwen2.5-VL-7B-Instruct模型，通过自然语言对话触发自动驾驶辅助功能，并以特定格式返回结果 [3] - Qwen2.5-VL是视觉-语言系列旗舰模型，支持视觉识别、物体定位、文档解析和长视频理解，旗舰型号Qwen2.5-VL-72B性能与GPT-4o和Claude 3.5 Sonnet相当 [4] 数据集与训练 - 使用CoVLA数据集，包含10,000个真实驾驶场景和超过80小时视频，通过自动数据处理生成精确驾驶轨迹和自然语言描述 [5] - 实际训练仅使用400张图片和对应QA问答对，数据量较小 [7] - 微调过程通过Web UI配置参数，训练日志显示loss进度，微调后模型保存在指定路径 [15] 技术应用与效果 - 微调后的模型在回答自动驾驶相关问题时，比原生Qwen2.5-VL-7B-Instruct模型更具参考价值，原始模型存在答非所问的情况 [19] - 测试显示模型能识别天气、道路类型等场景信息，并给出置信度（如多雨天气置信度0.978，宽阔道路置信度0.659） [10] - 模型可评估自动驾驶风险，如识别交通信号灯、其他车辆（置信度0.656）和行人（概率43.064%） [10] 社区与资源 - 自动驾驶之心知识星球拥有近4000人社区，300+自动驾驶公司与科研机构参与，覆盖30+技术栈 [22] - 提供端到端自动驾驶、大模型、BEV感知、轨迹预测等多方向专业课程 [23]