KTransformers
搜索文档
2张4090竟能本地微调万亿参数Kimi K2!趋境联合清华北航把算力门槛击穿了
量子位· 2025-11-05 15:56
仅需 2-4 张 消费级显卡(4090),就能在本地对 DeepSeek 671B 乃至 Kimi K2 1TB 这样的超大模型进行微调了。 你没有看错。 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 微调超大参数模型 ,现在的"打开方式"已经大变样了: 这要放以前啊,各路"炼丹师"是想都不敢这么想的。因为按照传统的方法,类似Kimi K2 1TB参数的模型,用LoRA微调方案理论上需要高 达2000GB的显存,而即便是参数量稍小的 DeepSeek-671B的模型微调也需要1400G的显存。 什么概念? 一张H100(80GB)得十几张起步,说是吞矿也是不足为过了。 而现在微调千亿/万亿参数模型的成本能打如此骨折,背后的关键源自 两个国产明星项目 的联动。 首先就是 KTransformers ,是由趋境科技和清华KVCache.AI共同开源的项目,GitHub已经斩获15.3K星 。 KTransformer此前在大模型推理领域就已声名鹊起,凭借GPU+CPU的异构推理的创新路径成为主流推理框架之一,通过KTransformers 利用单张4090可以推理Kimi K2 1TB级别大模型。 而这一 ...
KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式
量子位· 2025-10-22 17:12
项目概述 - KTransformers是由趋境科技与清华大学KVCacheAI团队联合研发的高性能异构推理框架,专注于大模型推理阶段的系统创新[2] - 该项目论文入选计算机系统领域顶级会议SOSP 2025,获得全球系统学术界的最高背书[2][4] - 项目旨在通过创新的异构推理架构,充分释放底层硬件算力资源,实现更普惠、更高效的大模型部署与应用[8] 技术创新与性能突破 - 采用CPU+GPU异构架构,让GPU负责注意力和主干网络的高并行计算,CPU承担稀疏专家模块的推理任务,实现高效协同执行[10] - 引入Expert Deferral(专家延迟机制),打破传统MoE推理的串行依赖,使CPU与GPU负载动态重叠,模型吞吐提升约1.45倍,单卡decode速度最高超过30+ tokens/s,模型精度变化低于0.5%[13][15] - 通过针对Intel AMX指令集开发的高吞吐计算核,在单路Xeon上实现PyTorch近4倍的提速,极大释放CPU在专家计算中的性能[12] - 在一台RTX 4080+双路Xeon的单机环境中成功运行DeepSeek-V3-671B模型,单路性能接近多卡GPU集群水准[16] 生态合作与行业影响 - 与主流推理框架SGLang合作,双方架构合入同一分支,实现全GPU推理与异构推理的融合[5] - GitHub Star数已突破15.2K,成为全球Star数排名前列的大模型推理框架[24] - 获得Qwen、Kimi、智谱AI等多个主流大模型在发布首日推荐作为推理引擎支持,工程实践与兼容性被多家一体机产品线采纳[24] - 趋境科技作为核心推动者,已与多个国产CPU、GPU硬件平台合作,共同推进全国产高性价比方案,为数十家行业开发伙伴提供算力底座[28] 未来发展方向 - 研究团队已在内部试水微调,计划在不扩卡、不改架构的前提下实现轻量调优,从"能跑"向"能调"演进[30] - 目标让大模型推理不再专属于高端算力,让AI能力也不再专属于少数企业,逐步实现算力普惠[29]
2025新一代计算产业大会召开 聚焦算力标准与技术创新
中国新闻网· 2025-09-17 16:59
行业活动与组织 - 2025新一代计算产业大会在北京举行 聚焦算力产业标准化建设与技术创新路径 [1] - 大会由中国电子工业标准化技术协会指导 新一代计算标准工作委员会主办 中科驭数、经开区国家信创园承办 [1] 技术发展与创新 - AI大模型全流程包括数据获取、预处理、训练、微调及推理 多数主体无需涉足全链条 依托开源基础模型开展微调与推理即可实现应用价值 [3] - Mooncake技术通过共享公共存储降低内存消耗 已获华为等企业采用 助力推理成本优化 [3] - KTransformers实现CPU与GPU内存协同 单CPU加单GPU即可运行满血版大模型 为个人AIPC落地铺路 [3] - DPU作为算力底座核心芯片 可承担数据处理、网络转发任务以释放CPU与GPU效能 [3] 标准化建设 - 需高站位谋划、高水平协同和实现高质量应用的新一代计算标准建设工作 [3] - 需增强标准供给 实现标准创新和标准引领 [3] - 当前DPU行业缺乏统一技术规范 制约了规模化应用 亟需通过标准构建破解适配难题 [3] - 大会同步发布《新一代计算标准体系》 宣布成立图形处理器(GPU)、数据处理器(DPU)、计算产品组件、液冷生态、异构计算工作部 [4] - 启动两项服务器电源国家标准编制工作 [4]
促开放协作与跨界融合 2025CCF中国开源大会在上海召开
中国新闻网· 2025-08-02 21:15
开源技术前沿进展 - 2025CCF中国开源大会在上海开幕,聚焦开源大模型、开源具身智能等关键方向,学术界与产业界专家进行深度交流 [1] - 多位AI与系统软件领域资深专家分享前瞻性观点,涉及大模型、开源硬件与智能操作系统等技术方向 [3] - 清华大学郑纬民团队研发并开源高效推理系统Mooncake与KTransformers,展示系统研究对智能时代工作负载的支撑作用 [3] - 北京大学鄂维南指出AI正经历从"模型中心"向"数据中心"的范式转变,强调构建高质量数据基础设施的重要性 [3] 开源生态建设 - CCF泛在操作系统开放社区成立,由北京大学、中国电子技术标准化研究院等机构共同发起,聚焦技术研究、开源孵化、标准研制等 [4] - 全球计算联盟(GCC)开源社区战略布局启动,CCF-木兰科创开源孵化器发布,华佗开源项目捐赠仪式举行 [3] - Omni-Infer云际开源共创计划正式启动,推动开源生态发展 [3] 产学研合作与人才培养 - 上海交大校长丁奎岭表示开源是推动开放发展的重要路径,大学应成为创新源头 [4] - 上海交大与华为建立"四共"合作新范式,为鸿蒙核心技术攻关提供基础 [5] - 上海交大在国内率先成立开源鸿蒙技术俱乐部,将开源鸿蒙融入课程体系培养领军人才 [5]