KTransformers - 财报，业绩电话会，研报，新闻

KTransformers

搜索文档

明晚直播｜2GPU+2CPU微调万亿参数超大模型，带你上手开源项目KTransformers

量子位· 2025-11-10 20:02

技术方案核心 - 仅需2个GPU和2个CPU即可在本地微调DeepSeek 671B或Kimi K2 1TB等超大模型 [1] - KTransformers为明星开源项目，可实现更低成本的LoRA微调 [2][4] 项目背景与团队 - 项目核心指导老师为清华大学计算机系副教授章明星，研究方向为计算机系统机构，成果发表于OSDI、SOSP等顶级会议 [6][7] - 项目核心参与者李沛霖来自西北工业大学，即将进入清华大学攻读博士，是微调功能核心技术开发人员 [8][9] 直播活动信息 - 直播将于明晚19点举行，主题为上手实践如何用KTransformers+LLaMA-Factory在本地微调超大模型 [4][5] - 直播核心话题包括认识KTransformers项目、手把手实操以及探讨其背后的技术与思考 [10]

Artificial Intelligence

AI落地方案

Artificial Intelligence

KTransformers

DeepSeek 671B

Kimi K2 1TB

Artificial Intelligence

AI落地方案

Artificial Intelligence

KTransformers

DeepSeek 671B

Kimi K2 1TB

2张4090竟能本地微调万亿参数Kimi K2！趋境联合清华北航把算力门槛击穿了

量子位· 2025-11-05 15:56

技术突破核心观点 - 微调超大参数模型的硬件门槛和成本出现革命性下降，仅需2-4张消费级显卡（如4090）即可在本地对DeepSeek 671B乃至Kimi K2 1TB级别的模型进行微调 [1] - 成本降低的关键在于两个国产开源项目KTransformers与LLaMA-Factory的联动，将微调千亿/万亿参数模型的显存需求从理论上的1400GB-2000GB大幅降低至70GB-90GB [5][7] 技术方案与性能对比 - KTransformers项目由趋境科技与清华KVCache.AI共同开发，GitHub已获15.3K星，通过GPU+CPU异构计算创新路径实现高性能推理和微调 [6][7] - LLaMA-Factory作为训练与微调平台，GitHub星标超6万，提供无需编码的图形化界面，支持上百种预训练模型微调 [7] - 性能对比显示，KTransformers在14B-DeepSeekV2-Lite模型上实现530.38 token/s的吞吐量，显存占用仅6.08GB，远低于HuggingFace的32.12GB和Unsloth的9.64GB [13] - 对于671B-DeepSeekV3模型，KTransformers是唯一可行方案，提供40.35 token/s的吞吐量，显存占用仅70GB，而其他方案均不支持或无法运行 [13] 微调效果验证 - 在风格化对话任务中，使用NekoQA-10K数据集微调DeepSeek 671B模型后，模型回答从专业建议转变为"喵娘"风格，显示出明显的个性化效果提升 [17][18][19][20] - 在专业领域测试中，使用非洲医疗数据集AfriMed-QA微调后，DeepSeek-V3模型的BLEU-1指标从12.75提升至42.42，ROUGE-1从20.33提升至41.97，各项评测指标均获得大幅提升 [23] 行业应用前景 - 技术突破使大模型从少数机构专属技术转变为高校、团队乃至个人都能驾驭的创意工具，显著降低了算力门槛 [26] - 企业可快速在多个业务方向测试，用私有数据训练专属AI专家，在客服、营销、内部知识管理等场景提升迭代效率和投资回报率 [27] - 创新边界被拓宽，支持打造个性化写作助手、私有知识库助手、角色扮演聊天机器人及垂直领域专业模型等多样化应用 [35] 技术实现原理 - 采用三拳组合策略：将MoE模型最耗显存的专家层任务分配给CPU内存处理，GPU专注于计算；实现LoRA与高性能算子的无缝集成；利用Intel AMX指令集充分挖掘CPU处理AI运算的潜力 [36] - 操作简便性高，用户只需安装KTransformers和LLaMA-Factory环境，通过简单配置即可启动训练，框架自动处理数据处理、训练调度等复杂流程 [30][31]

KTransformers入选计算机系统顶会、与主流框架合作，趋境&清华让「异构」成为推理新范式

量子位· 2025-10-22 17:12

项目概述 - KTransformers是由趋境科技与清华大学KVCacheAI团队联合研发的高性能异构推理框架，专注于大模型推理阶段的系统创新[2] - 该项目论文入选计算机系统领域顶级会议SOSP 2025，获得全球系统学术界的最高背书[2][4] - 项目旨在通过创新的异构推理架构，充分释放底层硬件算力资源，实现更普惠、更高效的大模型部署与应用[8] 技术创新与性能突破 - 采用CPU+GPU异构架构，让GPU负责注意力和主干网络的高并行计算，CPU承担稀疏专家模块的推理任务，实现高效协同执行[10] - 引入Expert Deferral（专家延迟机制），打破传统MoE推理的串行依赖，使CPU与GPU负载动态重叠，模型吞吐提升约1.45倍，单卡decode速度最高超过30+ tokens/s，模型精度变化低于0.5%[13][15] - 通过针对Intel AMX指令集开发的高吞吐计算核，在单路Xeon上实现PyTorch近4倍的提速，极大释放CPU在专家计算中的性能[12] - 在一台RTX 4080+双路Xeon的单机环境中成功运行DeepSeek-V3-671B模型，单路性能接近多卡GPU集群水准[16] 生态合作与行业影响 - 与主流推理框架SGLang合作，双方架构合入同一分支，实现全GPU推理与异构推理的融合[5] - GitHub Star数已突破15.2K，成为全球Star数排名前列的大模型推理框架[24] - 获得Qwen、Kimi、智谱AI等多个主流大模型在发布首日推荐作为推理引擎支持，工程实践与兼容性被多家一体机产品线采纳[24] - 趋境科技作为核心推动者，已与多个国产CPU、GPU硬件平台合作，共同推进全国产高性价比方案，为数十家行业开发伙伴提供算力底座[28] 未来发展方向 - 研究团队已在内部试水微调，计划在不扩卡、不改架构的前提下实现轻量调优，从"能跑"向"能调"演进[30] - 目标让大模型推理不再专属于高端算力，让AI能力也不再专属于少数企业，逐步实现算力普惠[29]

2025新一代计算产业大会召开聚焦算力标准与技术创新

中国新闻网· 2025-09-17 16:59

行业活动与组织 - 2025新一代计算产业大会在北京举行聚焦算力产业标准化建设与技术创新路径 [1] - 大会由中国电子工业标准化技术协会指导新一代计算标准工作委员会主办中科驭数、经开区国家信创园承办 [1] 技术发展与创新 - AI大模型全流程包括数据获取、预处理、训练、微调及推理多数主体无需涉足全链条依托开源基础模型开展微调与推理即可实现应用价值 [3] - Mooncake技术通过共享公共存储降低内存消耗已获华为等企业采用助力推理成本优化 [3] - KTransformers实现CPU与GPU内存协同单CPU加单GPU即可运行满血版大模型为个人AIPC落地铺路 [3] - DPU作为算力底座核心芯片可承担数据处理、网络转发任务以释放CPU与GPU效能 [3] 标准化建设 - 需高站位谋划、高水平协同和实现高质量应用的新一代计算标准建设工作 [3] - 需增强标准供给实现标准创新和标准引领 [3] - 当前DPU行业缺乏统一技术规范制约了规模化应用亟需通过标准构建破解适配难题 [3] - 大会同步发布《新一代计算标准体系》宣布成立图形处理器(GPU)、数据处理器(DPU)、计算产品组件、液冷生态、异构计算工作部 [4] - 启动两项服务器电源国家标准编制工作 [4]

促开放协作与跨界融合 2025CCF中国开源大会在上海召开

中国新闻网· 2025-08-02 21:15

开源技术前沿进展 - 2025CCF中国开源大会在上海开幕，聚焦开源大模型、开源具身智能等关键方向，学术界与产业界专家进行深度交流 [1] - 多位AI与系统软件领域资深专家分享前瞻性观点，涉及大模型、开源硬件与智能操作系统等技术方向 [3] - 清华大学郑纬民团队研发并开源高效推理系统Mooncake与KTransformers，展示系统研究对智能时代工作负载的支撑作用 [3] - 北京大学鄂维南指出AI正经历从"模型中心"向"数据中心"的范式转变，强调构建高质量数据基础设施的重要性 [3] 开源生态建设 - CCF泛在操作系统开放社区成立，由北京大学、中国电子技术标准化研究院等机构共同发起，聚焦技术研究、开源孵化、标准研制等 [4] - 全球计算联盟(GCC)开源社区战略布局启动，CCF-木兰科创开源孵化器发布，华佗开源项目捐赠仪式举行 [3] - Omni-Infer云际开源共创计划正式启动，推动开源生态发展 [3] 产学研合作与人才培养 - 上海交大校长丁奎岭表示开源是推动开放发展的重要路径，大学应成为创新源头 [4] - 上海交大与华为建立"四共"合作新范式，为鸿蒙核心技术攻关提供基础 [5] - 上海交大在国内率先成立开源鸿蒙技术俱乐部，将开源鸿蒙融入课程体系培养领军人才 [5]