LLaMA Factory

搜索文档
基于开源Qwen2.5-VL实现自动驾驶VLM微调
自动驾驶之心· 2025-08-09 00:04
自动驾驶技术框架与模型 - LLaMA Factory是一款开源低代码大模型微调框架,集成业界广泛使用的微调技术,GitHub星标超过4万,成为开源社区最受欢迎的微调框架之一 [3] - 项目基于Qwen2.5-VL-7B-Instruct模型,通过自然语言对话触发自动驾驶辅助功能,并以特定格式返回结果 [3] - Qwen2.5-VL是视觉-语言系列旗舰模型,支持视觉识别、物体定位、文档解析和长视频理解,旗舰型号Qwen2.5-VL-72B性能与GPT-4o和Claude 3.5 Sonnet相当 [4] 数据集与训练 - 使用CoVLA数据集,包含10,000个真实驾驶场景和超过80小时视频,通过自动数据处理生成精确驾驶轨迹和自然语言描述 [5] - 实际训练仅使用400张图片和对应QA问答对,数据量较小 [7] - 微调过程通过Web UI配置参数,训练日志显示loss进度,微调后模型保存在指定路径 [15] 技术应用与效果 - 微调后的模型在回答自动驾驶相关问题时,比原生Qwen2.5-VL-7B-Instruct模型更具参考价值,原始模型存在答非所问的情况 [19] - 测试显示模型能识别天气、道路类型等场景信息,并给出置信度(如多雨天气置信度0.978,宽阔道路置信度0.659) [10] - 模型可评估自动驾驶风险,如识别交通信号灯、其他车辆(置信度0.656)和行人(概率43.064%) [10] 社区与资源 - 自动驾驶之心知识星球拥有近4000人社区,300+自动驾驶公司与科研机构参与,覆盖30+技术栈 [22] - 提供端到端自动驾驶、大模型、BEV感知、轨迹预测等多方向专业课程 [23]
基于Qwen2.5-VL实现自动驾驶VLM的SFT
自动驾驶之心· 2025-07-29 08:52
技术框架与模型 - LLaMA Factory是一款开源低代码大模型微调框架,集成业界广泛使用的微调技术,GitHub星标超过4万,成为开源社区最受欢迎的微调框架之一 [1] - 项目基于Qwen2.5-VL-7B-Instruct模型,该模型属于Qwen视觉-语言系列旗舰型号,具备视觉识别、物体定位、文档解析和长视频理解能力,支持动态分辨率处理和绝对时间编码 [2] - Qwen2.5-VL系列提供三种规格模型,旗舰型号Qwen2.5-VL-72B性能对标GPT-4o和Claude 3.5 Sonnet,7B和3B版本适合资源受限环境 [2] 数据集与应用场景 - 采用CoVLA(Comprehensive Vision-Language-Action)数据集,包含10,000个真实驾驶场景、超过80小时视频数据,通过自动化流程生成精确驾驶轨迹与自然语言描述 [3] - 实际训练仅使用400张筛选图片及对应QA对话数据,对话内容涉及天气判断、道路类型识别、风险提示等自动驾驶场景交互 [10][12][13] - 微调目标为构建自动驾驶辅助器,通过自然语言对话触发功能并返回结构化响应,例如识别交通信号灯、行人车辆等风险因素 [1][20] 实施流程与工具链 - 技术栈包括LLaMA Factory微调框架、Qwen2.5-VL-7B-Instruct基座模型、CoVLA数据集及SwanLab训练可视化工具 [1][14] - 部署过程涉及模型下载(通过Hugging Face镜像加速)、路径配置、Web UI参数调整(批处理大小/梯度累积优化显存占用) [6][7][9][19] - 微调后模型保存在指定路径,测试显示其回答针对性优于原生模型,例如对"自动驾驶风险关注点"的响应更精准 [17][20][22] 行业生态与资源 - 相关社区覆盖近4000名成员,300+企业与科研机构参与,涉及30+自动驾驶技术方向包括大模型应用、BEV感知、多传感器融合等 [24] - 配套课程涵盖端到端自动驾驶、VLA、仿真测试等前沿方向,技术方案与行业动态同步更新 [26]