Workflow
AI个性化定制
icon
搜索文档
2张4090竟能本地微调万亿参数Kimi K2!趋境联合清华北航把算力门槛击穿了
量子位· 2025-11-05 15:56
技术突破核心观点 - 微调超大参数模型的硬件门槛和成本出现革命性下降,仅需2-4张消费级显卡(如4090)即可在本地对DeepSeek 671B乃至Kimi K2 1TB级别的模型进行微调 [1] - 成本降低的关键在于两个国产开源项目KTransformers与LLaMA-Factory的联动,将微调千亿/万亿参数模型的显存需求从理论上的1400GB-2000GB大幅降低至70GB-90GB [5][7] 技术方案与性能对比 - KTransformers项目由趋境科技与清华KVCache.AI共同开发,GitHub已获15.3K星,通过GPU+CPU异构计算创新路径实现高性能推理和微调 [6][7] - LLaMA-Factory作为训练与微调平台,GitHub星标超6万,提供无需编码的图形化界面,支持上百种预训练模型微调 [7] - 性能对比显示,KTransformers在14B-DeepSeekV2-Lite模型上实现530.38 token/s的吞吐量,显存占用仅6.08GB,远低于HuggingFace的32.12GB和Unsloth的9.64GB [13] - 对于671B-DeepSeekV3模型,KTransformers是唯一可行方案,提供40.35 token/s的吞吐量,显存占用仅70GB,而其他方案均不支持或无法运行 [13] 微调效果验证 - 在风格化对话任务中,使用NekoQA-10K数据集微调DeepSeek 671B模型后,模型回答从专业建议转变为"喵娘"风格,显示出明显的个性化效果提升 [17][18][19][20] - 在专业领域测试中,使用非洲医疗数据集AfriMed-QA微调后,DeepSeek-V3模型的BLEU-1指标从12.75提升至42.42,ROUGE-1从20.33提升至41.97,各项评测指标均获得大幅提升 [23] 行业应用前景 - 技术突破使大模型从少数机构专属技术转变为高校、团队乃至个人都能驾驭的创意工具,显著降低了算力门槛 [26] - 企业可快速在多个业务方向测试,用私有数据训练专属AI专家,在客服、营销、内部知识管理等场景提升迭代效率和投资回报率 [27] - 创新边界被拓宽,支持打造个性化写作助手、私有知识库助手、角色扮演聊天机器人及垂直领域专业模型等多样化应用 [35] 技术实现原理 - 采用三拳组合策略:将MoE模型最耗显存的专家层任务分配给CPU内存处理,GPU专注于计算;实现LoRA与高性能算子的无缝集成;利用Intel AMX指令集充分挖掘CPU处理AI运算的潜力 [36] - 操作简便性高,用户只需安装KTransformers和LLaMA-Factory环境,通过简单配置即可启动训练,框架自动处理数据处理、训练调度等复杂流程 [30][31]