大模型微调
搜索文档
2张4090竟能本地微调万亿参数Kimi K2!趋境联合清华北航把算力门槛击穿了
量子位· 2025-11-05 15:56
技术突破核心观点 - 微调超大参数模型的硬件门槛和成本出现革命性下降,仅需2-4张消费级显卡(如4090)即可在本地对DeepSeek 671B乃至Kimi K2 1TB级别的模型进行微调 [1] - 成本降低的关键在于两个国产开源项目KTransformers与LLaMA-Factory的联动,将微调千亿/万亿参数模型的显存需求从理论上的1400GB-2000GB大幅降低至70GB-90GB [5][7] 技术方案与性能对比 - KTransformers项目由趋境科技与清华KVCache.AI共同开发,GitHub已获15.3K星,通过GPU+CPU异构计算创新路径实现高性能推理和微调 [6][7] - LLaMA-Factory作为训练与微调平台,GitHub星标超6万,提供无需编码的图形化界面,支持上百种预训练模型微调 [7] - 性能对比显示,KTransformers在14B-DeepSeekV2-Lite模型上实现530.38 token/s的吞吐量,显存占用仅6.08GB,远低于HuggingFace的32.12GB和Unsloth的9.64GB [13] - 对于671B-DeepSeekV3模型,KTransformers是唯一可行方案,提供40.35 token/s的吞吐量,显存占用仅70GB,而其他方案均不支持或无法运行 [13] 微调效果验证 - 在风格化对话任务中,使用NekoQA-10K数据集微调DeepSeek 671B模型后,模型回答从专业建议转变为"喵娘"风格,显示出明显的个性化效果提升 [17][18][19][20] - 在专业领域测试中,使用非洲医疗数据集AfriMed-QA微调后,DeepSeek-V3模型的BLEU-1指标从12.75提升至42.42,ROUGE-1从20.33提升至41.97,各项评测指标均获得大幅提升 [23] 行业应用前景 - 技术突破使大模型从少数机构专属技术转变为高校、团队乃至个人都能驾驭的创意工具,显著降低了算力门槛 [26] - 企业可快速在多个业务方向测试,用私有数据训练专属AI专家,在客服、营销、内部知识管理等场景提升迭代效率和投资回报率 [27] - 创新边界被拓宽,支持打造个性化写作助手、私有知识库助手、角色扮演聊天机器人及垂直领域专业模型等多样化应用 [35] 技术实现原理 - 采用三拳组合策略:将MoE模型最耗显存的专家层任务分配给CPU内存处理,GPU专注于计算;实现LoRA与高性能算子的无缝集成;利用Intel AMX指令集充分挖掘CPU处理AI运算的潜力 [36] - 操作简便性高,用户只需安装KTransformers和LLaMA-Factory环境,通过简单配置即可启动训练,框架自动处理数据处理、训练调度等复杂流程 [30][31]
苹果提出新型反向传播:一台iPhone 15 Pro Max就能微调LLM
机器之心· 2025-10-30 09:41
文章核心观点 - 苹果公司提出了一种名为内存高效型反向传播(MeBP)的新方法,旨在实现在资源受限的移动设备(如iPhone)上对大型语言模型进行微调 [1] - 该方法在内存使用和计算时间之间提供了比零阶优化(ZO)方法更好的权衡,并且收敛更快、性能更优 [1] - 研究团队已在配备8GB RAM的iPhone 15 Pro Max上验证了MeBP的有效性,所有测试的LLM均可在低于1GB内存内实现高效微调 [4][24][28] 技术方法与实现 - MeBP技术专注于使用LoRA方法微调LLM,主要解决模型参数和中间激活值带来的内存瓶颈问题 [4] - 在设备上部署LLM时,对非LoRA参数采用了4-bit对称模式INT4量化来压缩基础模型权重,以减少磁盘空间占用 [6][7] - 系统实现包含三个核心步骤:压缩模型基础权重、编译包含反向传播和梯度检查点的训练图、实现内存高效的运行时来执行编译后的图 [5][10] - 在运行时采用内存映射和按需延迟解压权重的方式,显著降低了峰值内存使用量 [13][15] - 内存中仅保留一份LoRA权重及其梯度的副本,对于0.5B到4B参数的模型,LoRA权重大小通常在几十MB范围内 [16] 性能评估与比较 - 在效用比较中,一阶优化(FO)方法在最初的100步内就显著改善了损失和下一token准确度指标,而零阶优化(ZO)方法在1000步后仅显示轻微改善 [20] - 即使经过100,000步训练(比FO多100倍),ZO方法的测试损失仍高于FO,测试准确度也低于FO [20] - 在iPhone 15 Pro Max上的性能测试显示,与MeZO相比,MeBP每个梯度步骤的计算时间多出43%到94% [27][28] - 尽管单步计算时间更长,但由于MeZO所需步数是FO的10倍到100倍以上,MeBP在总训练时间上收敛更快 [28] - MeBP在最坏情况下的内存使用量比MeZO多出20%,但其总训练内存使用量比以往的移动设备实现大约小10倍 [28] 实验配置与模型 - 实验使用了Gemma-3和Qwen-2.5模型,在WikiText-2数据集上进行语言建模任务,专注于参数量不超过4B的模型 [18][20] - 测试涵盖了从0.5B到4B参数的不同规模模型,包括Qwen2.5-0.5B、Qwen2.5-1.5B、Qwen2.5-3B、Gemma3-1B和Gemma3-4B [27] - 对于Qwen2.5-0.5B模型,MeBP训练时间为3.85秒,内存使用为320.17MB;而Gemma3-4B模型训练时间为28.58秒,内存使用为1029.49MB [27]
Murati翁荔陈丹琦公司发布首个产品,让大模型微调门槛暴降,要重新发明一个OpenAI
量子位· 2025-10-02 11:26
产品发布与公司定位 - Thinking Machines Lab发布其首个产品Tinker,这是一个用于微调语言模型的灵活API,旨在使模型微调过程像修改Python代码一样简单[1][12] - 公司联合创始人翁荔指出,当前GPU价格昂贵且基础设施设置复杂,Tinker作为高质量研究工具旨在提高研究生产力,是解决该挑战的第一步[5] - 公司使命是让更多人能够研究前沿模型并根据自身需求进行定制,Tinker通过让研究人员控制算法和数据而无需管理基础设施来实现这一目标[13][14] 产品Tinker的技术特点与优势 - Tinker让研究者在微调过程中保留90%的控制权,主要涉及数据、损失函数和算法本身,同时自动处理基础设施、LLM的前向/后向传播及分布式训练等复杂问题[8] - 产品首批主要支持Qwen3和Llama3系列模型,从小模型切换到大模型仅需在Python代码中修改一个字符串[15] - Tinker的API提供`forward_backward`和`sample`等底层训练步骤,并自动处理调度、扩展和错误恢复,还使用LoRA技术让多个训练任务共享GPU以降低成本并支持更多实验并行运行[17][22] - 除了云托管服务,公司还开源了Tinker Cookbook库,提供各种现成的后训练方法实现[24] - 微软研究员发现Tinker未采用GRPO方法,而是使用经典的REINFORCE算法配合优势函数,且没有梯度裁剪,其梯度更新策略简化为:新参数 = 原参数 + 学习率 × 优势值 × 对数概率的梯度[27][28] 市场反馈与行业影响 - AI大神卡帕西评价该产品“很酷”,AI基础设施公司Anyscale的CEO等beta测试者认为Tinker在抽象化和可调性之间取得了卓越的平衡[8][30] - 普林斯顿、斯坦福、伯克利和Redwood Research等研究团队已使用Tinker取得成果[30] - 卡帕西指出,社区正在探索微调相比直接提示大模型的优势,早期迹象表明微调能有效缩小任务范围,特别是在训练样本数量大时,微调小模型处理特定任务可能优于构建复杂的少样本提示[31] - 随着AI应用向更大规模流水线发展,其中多个大模型协作,微调可能在更多环节比提示更优,Tinker的简易性有助于实验出最佳方案[32][33] 公司战略与行业动态 - 有消息称Thinking Machines Lab正尝试“重新发明一个OpenAI”,旨在重建OpenAI在规模变大、变得官僚主义之前的版本[10] - 创始人Murati表示,公司将是一家公开分享研究成果并给予研究人员更多自由的公司[11] - 与此同时,OpenAI正转向更类似Meta的社交方向,其ChatGPT应用代码中发现了“社交模式”相关功能,包括来自“其他用户”的推送通知、群聊模式以及设置头像和昵称的功能[36][37][38][39][41]
大模型微调到底有没有技术含量,或者说技术含量到底有多大?
自动驾驶之心· 2025-08-11 07:32
大模型微调技术 数据工作 - 直接继承现有数据而不检查质量是最基础的做法 [7] - 开源数据构建需形成"system+query+answer"结构化集合 [8] - 利用GPT4生成数据时需注重prompt多样性和抗噪性设计 包括人工校验标注标准 [8] - 用户交互日志驱动数据构造 结合规则或GPT4分析feedback提升answer质量 [9] - 通过任务拆解解决复杂问题 如将长篇小说写作分解为大纲生成和分段创作 [9] 训练代码 - 直接复用现有代码仅修改路径参数属于初级操作 [11] - 深入研究训练参数如offload/sequence_parallel机制 分析dataloader数据处理逻辑 [11] - 提出参数优化建议 包括epoch数量(3次可能过多)、学习率调整(7B模型适用性)、warmup步数设置 [11] - 框架优化方向涉及deepspeed与megatron结合 以及rope计算耗时等性能瓶颈突破 [12] 实验分析 - 基础评估仅依赖预设测试集 负收益时简单归因数据质量问题 [14] - 深度分析需结合pretrain模型对比 识别bad case类型(幻觉/过拟合/能力不足等) [14] - 训练过程监控需综合tensorboard日志 关注loss曲线形态(如阶梯形变化)、channel_loss异常等 [15] - benchmark测试揭示通用能力下降现象 研究任务训练与能力跷跷板效应关系 [15] - 诊断技术包括token概率观测、错误发生位置定位 以及pattern过拟合根因分析 [17] 自动驾驶技术生态 行业社区 - 已建立近百个技术交流群 覆盖大模型/VLA/端到端等30+技术方向 [18] - 社区规模近4000人 吸引300余家企业和科研机构参与 [18] - 重点技术领域包括BEV感知、多模态融合、3DGS、世界模型等前沿方向 [19]