技术框架与模型 - LLaMA Factory是一款开源低代码大模型微调框架,集成业界广泛使用的微调技术,GitHub星标超过4万,成为开源社区最受欢迎的微调框架之一 [1] - 项目基于Qwen2.5-VL-7B-Instruct模型,该模型属于Qwen视觉-语言系列旗舰型号,具备视觉识别、物体定位、文档解析和长视频理解能力,支持动态分辨率处理和绝对时间编码 [2] - Qwen2.5-VL系列提供三种规格模型,旗舰型号Qwen2.5-VL-72B性能对标GPT-4o和Claude 3.5 Sonnet,7B和3B版本适合资源受限环境 [2] 数据集与应用场景 - 采用CoVLA(Comprehensive Vision-Language-Action)数据集,包含10,000个真实驾驶场景、超过80小时视频数据,通过自动化流程生成精确驾驶轨迹与自然语言描述 [3] - 实际训练仅使用400张筛选图片及对应QA对话数据,对话内容涉及天气判断、道路类型识别、风险提示等自动驾驶场景交互 [10][12][13] - 微调目标为构建自动驾驶辅助器,通过自然语言对话触发功能并返回结构化响应,例如识别交通信号灯、行人车辆等风险因素 [1][20] 实施流程与工具链 - 技术栈包括LLaMA Factory微调框架、Qwen2.5-VL-7B-Instruct基座模型、CoVLA数据集及SwanLab训练可视化工具 [1][14] - 部署过程涉及模型下载(通过Hugging Face镜像加速)、路径配置、Web UI参数调整(批处理大小/梯度累积优化显存占用) [6][7][9][19] - 微调后模型保存在指定路径,测试显示其回答针对性优于原生模型,例如对"自动驾驶风险关注点"的响应更精准 [17][20][22] 行业生态与资源 - 相关社区覆盖近4000名成员,300+企业与科研机构参与,涉及30+自动驾驶技术方向包括大模型应用、BEV感知、多传感器融合等 [24] - 配套课程涵盖端到端自动驾驶、VLA、仿真测试等前沿方向,技术方案与行业动态同步更新 [26]
基于Qwen2.5-VL实现自动驾驶VLM的SFT
自动驾驶之心·2025-07-29 08:52