Workflow
大模型微调
icon
搜索文档
Murati翁荔陈丹琦公司发布首个产品,让大模型微调门槛暴降,要重新发明一个OpenAI
量子位· 2025-10-02 11:26
产品发布与公司定位 - Thinking Machines Lab发布其首个产品Tinker,这是一个用于微调语言模型的灵活API,旨在使模型微调过程像修改Python代码一样简单[1][12] - 公司联合创始人翁荔指出,当前GPU价格昂贵且基础设施设置复杂,Tinker作为高质量研究工具旨在提高研究生产力,是解决该挑战的第一步[5] - 公司使命是让更多人能够研究前沿模型并根据自身需求进行定制,Tinker通过让研究人员控制算法和数据而无需管理基础设施来实现这一目标[13][14] 产品Tinker的技术特点与优势 - Tinker让研究者在微调过程中保留90%的控制权,主要涉及数据、损失函数和算法本身,同时自动处理基础设施、LLM的前向/后向传播及分布式训练等复杂问题[8] - 产品首批主要支持Qwen3和Llama3系列模型,从小模型切换到大模型仅需在Python代码中修改一个字符串[15] - Tinker的API提供`forward_backward`和`sample`等底层训练步骤,并自动处理调度、扩展和错误恢复,还使用LoRA技术让多个训练任务共享GPU以降低成本并支持更多实验并行运行[17][22] - 除了云托管服务,公司还开源了Tinker Cookbook库,提供各种现成的后训练方法实现[24] - 微软研究员发现Tinker未采用GRPO方法,而是使用经典的REINFORCE算法配合优势函数,且没有梯度裁剪,其梯度更新策略简化为:新参数 = 原参数 + 学习率 × 优势值 × 对数概率的梯度[27][28] 市场反馈与行业影响 - AI大神卡帕西评价该产品“很酷”,AI基础设施公司Anyscale的CEO等beta测试者认为Tinker在抽象化和可调性之间取得了卓越的平衡[8][30] - 普林斯顿、斯坦福、伯克利和Redwood Research等研究团队已使用Tinker取得成果[30] - 卡帕西指出,社区正在探索微调相比直接提示大模型的优势,早期迹象表明微调能有效缩小任务范围,特别是在训练样本数量大时,微调小模型处理特定任务可能优于构建复杂的少样本提示[31] - 随着AI应用向更大规模流水线发展,其中多个大模型协作,微调可能在更多环节比提示更优,Tinker的简易性有助于实验出最佳方案[32][33] 公司战略与行业动态 - 有消息称Thinking Machines Lab正尝试“重新发明一个OpenAI”,旨在重建OpenAI在规模变大、变得官僚主义之前的版本[10] - 创始人Murati表示,公司将是一家公开分享研究成果并给予研究人员更多自由的公司[11] - 与此同时,OpenAI正转向更类似Meta的社交方向,其ChatGPT应用代码中发现了“社交模式”相关功能,包括来自“其他用户”的推送通知、群聊模式以及设置头像和昵称的功能[36][37][38][39][41]
大模型微调到底有没有技术含量,或者说技术含量到底有多大?
自动驾驶之心· 2025-08-11 07:32
大模型微调技术 数据工作 - 直接继承现有数据而不检查质量是最基础的做法 [7] - 开源数据构建需形成"system+query+answer"结构化集合 [8] - 利用GPT4生成数据时需注重prompt多样性和抗噪性设计 包括人工校验标注标准 [8] - 用户交互日志驱动数据构造 结合规则或GPT4分析feedback提升answer质量 [9] - 通过任务拆解解决复杂问题 如将长篇小说写作分解为大纲生成和分段创作 [9] 训练代码 - 直接复用现有代码仅修改路径参数属于初级操作 [11] - 深入研究训练参数如offload/sequence_parallel机制 分析dataloader数据处理逻辑 [11] - 提出参数优化建议 包括epoch数量(3次可能过多)、学习率调整(7B模型适用性)、warmup步数设置 [11] - 框架优化方向涉及deepspeed与megatron结合 以及rope计算耗时等性能瓶颈突破 [12] 实验分析 - 基础评估仅依赖预设测试集 负收益时简单归因数据质量问题 [14] - 深度分析需结合pretrain模型对比 识别bad case类型(幻觉/过拟合/能力不足等) [14] - 训练过程监控需综合tensorboard日志 关注loss曲线形态(如阶梯形变化)、channel_loss异常等 [15] - benchmark测试揭示通用能力下降现象 研究任务训练与能力跷跷板效应关系 [15] - 诊断技术包括token概率观测、错误发生位置定位 以及pattern过拟合根因分析 [17] 自动驾驶技术生态 行业社区 - 已建立近百个技术交流群 覆盖大模型/VLA/端到端等30+技术方向 [18] - 社区规模近4000人 吸引300余家企业和科研机构参与 [18] - 重点技术领域包括BEV感知、多模态融合、3DGS、世界模型等前沿方向 [19]