Workflow
异构推理
icon
搜索文档
KTransformers入选计算机系统顶会、与主流框架合作,趋境&清华让「异构」成为推理新范式
量子位· 2025-10-22 17:12
项目概述 - KTransformers是由趋境科技与清华大学KVCacheAI团队联合研发的高性能异构推理框架,专注于大模型推理阶段的系统创新[2] - 该项目论文入选计算机系统领域顶级会议SOSP 2025,获得全球系统学术界的最高背书[2][4] - 项目旨在通过创新的异构推理架构,充分释放底层硬件算力资源,实现更普惠、更高效的大模型部署与应用[8] 技术创新与性能突破 - 采用CPU+GPU异构架构,让GPU负责注意力和主干网络的高并行计算,CPU承担稀疏专家模块的推理任务,实现高效协同执行[10] - 引入Expert Deferral(专家延迟机制),打破传统MoE推理的串行依赖,使CPU与GPU负载动态重叠,模型吞吐提升约1.45倍,单卡decode速度最高超过30+ tokens/s,模型精度变化低于0.5%[13][15] - 通过针对Intel AMX指令集开发的高吞吐计算核,在单路Xeon上实现PyTorch近4倍的提速,极大释放CPU在专家计算中的性能[12] - 在一台RTX 4080+双路Xeon的单机环境中成功运行DeepSeek-V3-671B模型,单路性能接近多卡GPU集群水准[16] 生态合作与行业影响 - 与主流推理框架SGLang合作,双方架构合入同一分支,实现全GPU推理与异构推理的融合[5] - GitHub Star数已突破15.2K,成为全球Star数排名前列的大模型推理框架[24] - 获得Qwen、Kimi、智谱AI等多个主流大模型在发布首日推荐作为推理引擎支持,工程实践与兼容性被多家一体机产品线采纳[24] - 趋境科技作为核心推动者,已与多个国产CPU、GPU硬件平台合作,共同推进全国产高性价比方案,为数十家行业开发伙伴提供算力底座[28] 未来发展方向 - 研究团队已在内部试水微调,计划在不扩卡、不改架构的前提下实现轻量调优,从"能跑"向"能调"演进[30] - 目标让大模型推理不再专属于高端算力,让AI能力也不再专属于少数企业,逐步实现算力普惠[29]