Large Language Model Fine-tuning
搜索文档
开发者狂喜:Thinking Machines发布首款产品Tinker,后训练麻烦全给包了
机器之心· 2025-10-02 11:12
Tinker产品发布 - OpenAI前CTO Mira Murati创立的Thinking Machines公司推出首款产品Tinker API [2] - Tinker是一个帮助开发者/研究人员微调语言模型的API,用户只需专注于训练数据和算法,而基础设施部分如调度、调优、资源管理和可靠性由Tinker处理 [4] - 产品支持用户通过简单Python脚本在CPU上运行,由Tinker处理高效的大规模模型分布式训练,包括Llama 70B和Qwen 235B等模型 [5] 技术能力与支持 - Tinker支持多种前沿模型,包括Qwen系列和Llama系列,从小模型切换到大模型只需在Python代码中更改一个字符串 [6] - 支持模型包括Qwen3-4B-Instruct-2507、Qwen3-235B-A22B-Instruct-2507、Llama-3.1-70B等密集和混合专家模型 [8] - 使用LoRA技术在多个训练运行间共享计算资源池以降低成本 [8] - API提供forward_backward、optim_step、sample、save_state等底层原语,可用于表达大多数常见的后训练方法 [11] 生态系统与采用 - 公司发布开源库Tinker Cookbook,包含基于Tinker API运行的后训练方法的现代实现 [9] - 普林斯顿大学、斯坦福大学、加州大学伯克利分校和Redwood Research等机构已在使用了Tinker [13] - 产品支持经典的有监督微调和高度实验性的强化学习pipeline,跨越广泛领域 [13] - 普林斯顿大学团队使用Tinker和LoRA仅用20%数据就达到与全参数SFT模型相当的性能,在MiniF2F基准测试中达到88.1% pass@32 [14] 实际应用效果 - 斯坦福大学研究小组对LLaMA 70B应用强化学习后,IUPAC到公式的转换准确率从15%提升至50% [14] - 加州大学伯克利分校小组在定制的异步off-policy强化学习训练loop上进行实验,涉及多智能体和多轮工具使用 [14] - Redwood Research利用Tinker对Qwen3-32B在长上下文AI控制任务上进行RL训练 [14] 商业模式与愿景 - Tinker在起步阶段将免费使用,未来几周内将推出基于使用情况的定价模式 [15] - 公司使命是让更多人能够研究尖端模型并根据自己的需求进行定制 [6] - 旨在揭开调整强大AI模型工作的神秘面纱,让原本只有前沿团队具备的能力惠及所有人 [18] - 希望扭转商业AI模型日益封闭的趋势,缩小前沿实验室与学术界之间的分歧 [18]
基于开源Qwen2.5-VL实现自动驾驶VLM微调
自动驾驶之心· 2025-09-30 07:33
大模型微调框架技术进展 - LLaMA Factory成为开源社区最受欢迎的微调框架之一 GitHub星标超过4万 集成业界广泛使用的微调技术 [1] - 框架支持低代码大模型微调 基于Qwen2.5-VL-7B-Instruct模型开发自动驾驶辅助器 通过自然语言对话触发功能 [1] 多模态大模型技术突破 - Qwen2.5-VL系列实现视觉识别 物体定位 文档解析和长视频理解重大突破 支持边界框精确定位和结构化数据提取 [2] - 旗舰型号Qwen2.5-VL-72B性能与GPT-4o和Claude 3.5 Sonnet相当 较小7B和3B型号在资源受限环境表现优异 [2] - 模型引入动态分辨率处理和绝对时间编码 可处理不同大小图像和长达数小时视频 [2] 自动驾驶数据集创新 - CoVLA数据集包含10,000个真实驾驶场景 总计超过80小时视频 采用自动数据处理和描述生成流程 [3] - 数据集生成精确驾驶轨迹并配以详细自然语言描述 在规模和标注丰富性方面超越现有数据集 [3] - 基于数据集开发CoVLA-Agent模型 用于可解释的端到端自动驾驶 [3] 模型训练与部署实践 - 使用NVIDIA GPU 3090(24G显存)和400张小型图片数据集进行微调训练 [1][7] - 通过Hugging Face平台下载Qwen2.5-VL-7B-Instruct模型 配置清华源加速下载 [6] - 采用SwanLab可视化工具记录微调过程 支持训练过程追踪 [11] - 微调后模型保存在指定路径 通过Web UI界面进行模型加载和测试 [18][20] 应用效果验证 - 微调后模型对"自动驾驶车辆应该关注哪些风险"问题给出更具参考价值的回答 [21][22] - 原始模型回答内容较多但存在答非所问的情况 微调显著提升应答准确性 [22] - 测试显示可处理天气判断(多雨置信度0.978) 道路类型识别(宽阔道路置信度0.659)等具体场景 [9]