LLaMA Factory - 财报，业绩电话会，研报，新闻

LLaMA Factory

搜索文档

听LLaMA Factory、vLLM、RAGFlow作者亲述顶级开源项目的增长法则｜GOBI 2025

AI科技大本营· 2025-12-17 17:42

大会核心信息 - 会议名称为GOBI 2025全球开源商业创新大会，由Upstream Labs、AI原点社区、CSDN联合主办 [14] - 会议将于12月21日10:00-17:15在北京海淀东升万丽酒店举行 [5][19] - 会议定位为首届开源商业化主题大会，旨在汇聚生态伙伴，站在全球开源与AI交汇的最前沿，共同解锁未来三年的创新机会 [14][19] 参会嘉宾与规模 - 大会汇聚了500+位开源基金会掌舵者、独角兽创始人、头部VC合伙人与顶级开发者 [14] - 参会嘉宾包括来自GitHub 60,000+ Star项目LLaMA Factory的郑耀威、vLLM社区核心贡献者张家驹、RAGFlow创始人张颖峰、Apache软件基金会成员及Datastrato创始人堵俊平等实战派专家 [2][6] - 其他重要嘉宾包括创新工场联合创始人汪华、CSDN创始人蒋涛、涛思数据创始人陶建辉、LVS创始人章文嵩、PingCAP副总裁刘松、月之暗面副总裁黄震昕等超过30位专家 [20][21] 大会议程与核心议题 - 大会包含三大顶层Keynote，系统洞察开源、AI与商业的前沿思辨 [17] - 核心议题围绕“AI浪潮三部曲：变局·聚力·创生”展开，包含四场深度圆桌讨论 [6][19] - 具体议程包括“破局·企业软件的‘巨硬’时刻”、“变局·AI带来的软件和SaaS变革”、“聚力·开源社区的进化与未来”以及“创生·AI催生的文艺复兴式创业者”等圆桌论坛 [20][21] - 圆桌论坛将探讨如何借助社区力量实现个人能力跃迁、如何让围观者变为共创者、以及如何构建社区精神部落等核心问题 [3] - 会议最后将进行“源起之道”开源商业创新营优胜项目路演及颁奖典礼 [22] 现场活动与体验 - 现场将展示10大“源起之道”开源商业创新营项目 [10][22] - 现场将提供10大具身智能应用场景及体验 [10][22] - 参会者可近距离体验前沿开源应用成果与优秀项目 [10][22] - 大会设有入场好礼及终极神秘大奖等互动环节 [10][22]

基于开源Qwen2.5-VL实现自动驾驶VLM微调

自动驾驶之心· 2025-09-30 07:33

大模型微调框架技术进展 - LLaMA Factory成为开源社区最受欢迎的微调框架之一 GitHub星标超过4万集成业界广泛使用的微调技术 [1] - 框架支持低代码大模型微调基于Qwen2.5-VL-7B-Instruct模型开发自动驾驶辅助器通过自然语言对话触发功能 [1] 多模态大模型技术突破 - Qwen2.5-VL系列实现视觉识别物体定位文档解析和长视频理解重大突破支持边界框精确定位和结构化数据提取 [2] - 旗舰型号Qwen2.5-VL-72B性能与GPT-4o和Claude 3.5 Sonnet相当较小7B和3B型号在资源受限环境表现优异 [2] - 模型引入动态分辨率处理和绝对时间编码可处理不同大小图像和长达数小时视频 [2] 自动驾驶数据集创新 - CoVLA数据集包含10,000个真实驾驶场景总计超过80小时视频采用自动数据处理和描述生成流程 [3] - 数据集生成精确驾驶轨迹并配以详细自然语言描述在规模和标注丰富性方面超越现有数据集 [3] - 基于数据集开发CoVLA-Agent模型用于可解释的端到端自动驾驶 [3] 模型训练与部署实践 - 使用NVIDIA GPU 3090（24G显存）和400张小型图片数据集进行微调训练 [1][7] - 通过Hugging Face平台下载Qwen2.5-VL-7B-Instruct模型配置清华源加速下载 [6] - 采用SwanLab可视化工具记录微调过程支持训练过程追踪 [11] - 微调后模型保存在指定路径通过Web UI界面进行模型加载和测试 [18][20] 应用效果验证 - 微调后模型对"自动驾驶车辆应该关注哪些风险"问题给出更具参考价值的回答 [21][22] - 原始模型回答内容较多但存在答非所问的情况微调显著提升应答准确性 [22] - 测试显示可处理天气判断（多雨置信度0.978）道路类型识别（宽阔道路置信度0.659）等具体场景 [9]

Autonomous Driving

Large Language Model Fine-tuning

Artificial Intelligence

Large Language Model Fine-tuning

Artificial Intelligence

LLaMA Factory

Qwen2.5-VL

CoVLA

基于开源Qwen2.5-VL实现自动驾驶VLM微调

自动驾驶之心· 2025-08-09 00:04

自动驾驶技术框架与模型 - LLaMA Factory是一款开源低代码大模型微调框架，集成业界广泛使用的微调技术，GitHub星标超过4万，成为开源社区最受欢迎的微调框架之一 [3] - 项目基于Qwen2.5-VL-7B-Instruct模型，通过自然语言对话触发自动驾驶辅助功能，并以特定格式返回结果 [3] - Qwen2.5-VL是视觉-语言系列旗舰模型，支持视觉识别、物体定位、文档解析和长视频理解，旗舰型号Qwen2.5-VL-72B性能与GPT-4o和Claude 3.5 Sonnet相当 [4] 数据集与训练 - 使用CoVLA数据集，包含10,000个真实驾驶场景和超过80小时视频，通过自动数据处理生成精确驾驶轨迹和自然语言描述 [5] - 实际训练仅使用400张图片和对应QA问答对，数据量较小 [7] - 微调过程通过Web UI配置参数，训练日志显示loss进度，微调后模型保存在指定路径 [15] 技术应用与效果 - 微调后的模型在回答自动驾驶相关问题时，比原生Qwen2.5-VL-7B-Instruct模型更具参考价值，原始模型存在答非所问的情况 [19] - 测试显示模型能识别天气、道路类型等场景信息，并给出置信度（如多雨天气置信度0.978，宽阔道路置信度0.659） [10] - 模型可评估自动驾驶风险，如识别交通信号灯、其他车辆（置信度0.656）和行人（概率43.064%） [10] 社区与资源 - 自动驾驶之心知识星球拥有近4000人社区，300+自动驾驶公司与科研机构参与，覆盖30+技术栈 [22] - 提供端到端自动驾驶、大模型、BEV感知、轨迹预测等多方向专业课程 [23]

Large Model Fine-tuning

Vision-Language Model

Artificial Intelligence

Autonomous Driving

Qwen2.5-VL

LLaMA Factory

Large Model Fine-tuning

Vision-Language Model

Artificial Intelligence

Autonomous Driving

Qwen2.5-VL

LLaMA Factory

基于Qwen2.5-VL实现自动驾驶VLM的SFT

自动驾驶之心· 2025-07-29 08:52

技术框架与模型 - LLaMA Factory是一款开源低代码大模型微调框架，集成业界广泛使用的微调技术，GitHub星标超过4万，成为开源社区最受欢迎的微调框架之一 [1] - 项目基于Qwen2.5-VL-7B-Instruct模型，该模型属于Qwen视觉-语言系列旗舰型号，具备视觉识别、物体定位、文档解析和长视频理解能力，支持动态分辨率处理和绝对时间编码 [2] - Qwen2.5-VL系列提供三种规格模型，旗舰型号Qwen2.5-VL-72B性能对标GPT-4o和Claude 3.5 Sonnet，7B和3B版本适合资源受限环境 [2] 数据集与应用场景 - 采用CoVLA（Comprehensive Vision-Language-Action）数据集，包含10,000个真实驾驶场景、超过80小时视频数据，通过自动化流程生成精确驾驶轨迹与自然语言描述 [3] - 实际训练仅使用400张筛选图片及对应QA对话数据，对话内容涉及天气判断、道路类型识别、风险提示等自动驾驶场景交互 [10][12][13] - 微调目标为构建自动驾驶辅助器，通过自然语言对话触发功能并返回结构化响应，例如识别交通信号灯、行人车辆等风险因素 [1][20] 实施流程与工具链 - 技术栈包括LLaMA Factory微调框架、Qwen2.5-VL-7B-Instruct基座模型、CoVLA数据集及SwanLab训练可视化工具 [1][14] - 部署过程涉及模型下载（通过Hugging Face镜像加速）、路径配置、Web UI参数调整（批处理大小/梯度累积优化显存占用） [6][7][9][19] - 微调后模型保存在指定路径，测试显示其回答针对性优于原生模型，例如对"自动驾驶风险关注点"的响应更精准 [17][20][22] 行业生态与资源 - 相关社区覆盖近4000名成员，300+企业与科研机构参与，涉及30+自动驾驶技术方向包括大模型应用、BEV感知、多传感器融合等 [24] - 配套课程涵盖端到端自动驾驶、VLA、仿真测试等前沿方向，技术方案与行业动态同步更新 [26]

Autonomous Driving

Vision - Language Model

Artificial Intelligence

Vision - Language Model

Artificial Intelligence

Qwen2.5-VL

LLaMA Factory

CoVLA