AI个性化定制 - 财报，业绩电话会，研报，新闻

AI个性化定制

搜索文档

2张4090竟能本地微调万亿参数Kimi K2！趋境联合清华北航把算力门槛击穿了

量子位· 2025-11-05 15:56

技术突破核心观点 - 微调超大参数模型的硬件门槛和成本出现革命性下降，仅需2-4张消费级显卡（如4090）即可在本地对DeepSeek 671B乃至Kimi K2 1TB级别的模型进行微调 [1] - 成本降低的关键在于两个国产开源项目KTransformers与LLaMA-Factory的联动，将微调千亿/万亿参数模型的显存需求从理论上的1400GB-2000GB大幅降低至70GB-90GB [5][7] 技术方案与性能对比 - KTransformers项目由趋境科技与清华KVCache.AI共同开发，GitHub已获15.3K星，通过GPU+CPU异构计算创新路径实现高性能推理和微调 [6][7] - LLaMA-Factory作为训练与微调平台，GitHub星标超6万，提供无需编码的图形化界面，支持上百种预训练模型微调 [7] - 性能对比显示，KTransformers在14B-DeepSeekV2-Lite模型上实现530.38 token/s的吞吐量，显存占用仅6.08GB，远低于HuggingFace的32.12GB和Unsloth的9.64GB [13] - 对于671B-DeepSeekV3模型，KTransformers是唯一可行方案，提供40.35 token/s的吞吐量，显存占用仅70GB，而其他方案均不支持或无法运行 [13] 微调效果验证 - 在风格化对话任务中，使用NekoQA-10K数据集微调DeepSeek 671B模型后，模型回答从专业建议转变为"喵娘"风格，显示出明显的个性化效果提升 [17][18][19][20] - 在专业领域测试中，使用非洲医疗数据集AfriMed-QA微调后，DeepSeek-V3模型的BLEU-1指标从12.75提升至42.42，ROUGE-1从20.33提升至41.97，各项评测指标均获得大幅提升 [23] 行业应用前景 - 技术突破使大模型从少数机构专属技术转变为高校、团队乃至个人都能驾驭的创意工具，显著降低了算力门槛 [26] - 企业可快速在多个业务方向测试，用私有数据训练专属AI专家，在客服、营销、内部知识管理等场景提升迭代效率和投资回报率 [27] - 创新边界被拓宽，支持打造个性化写作助手、私有知识库助手、角色扮演聊天机器人及垂直领域专业模型等多样化应用 [35] 技术实现原理 - 采用三拳组合策略：将MoE模型最耗显存的专家层任务分配给CPU内存处理，GPU专注于计算；实现LoRA与高性能算子的无缝集成；利用Intel AMX指令集充分挖掘CPU处理AI运算的潜力 [36] - 操作简便性高，用户只需安装KTransformers和LLaMA-Factory环境，通过简单配置即可启动训练，框架自动处理数据处理、训练调度等复杂流程 [30][31]