异构推理 - 财报，业绩电话会，研报，新闻

异构推理

搜索文档

KTransformers入选计算机系统顶会、与主流框架合作，趋境&清华让「异构」成为推理新范式

量子位· 2025-10-22 17:12

项目概述 - KTransformers是由趋境科技与清华大学KVCacheAI团队联合研发的高性能异构推理框架，专注于大模型推理阶段的系统创新[2] - 该项目论文入选计算机系统领域顶级会议SOSP 2025，获得全球系统学术界的最高背书[2][4] - 项目旨在通过创新的异构推理架构，充分释放底层硬件算力资源，实现更普惠、更高效的大模型部署与应用[8] 技术创新与性能突破 - 采用CPU+GPU异构架构，让GPU负责注意力和主干网络的高并行计算，CPU承担稀疏专家模块的推理任务，实现高效协同执行[10] - 引入Expert Deferral（专家延迟机制），打破传统MoE推理的串行依赖，使CPU与GPU负载动态重叠，模型吞吐提升约1.45倍，单卡decode速度最高超过30+ tokens/s，模型精度变化低于0.5%[13][15] - 通过针对Intel AMX指令集开发的高吞吐计算核，在单路Xeon上实现PyTorch近4倍的提速，极大释放CPU在专家计算中的性能[12] - 在一台RTX 4080+双路Xeon的单机环境中成功运行DeepSeek-V3-671B模型，单路性能接近多卡GPU集群水准[16] 生态合作与行业影响 - 与主流推理框架SGLang合作，双方架构合入同一分支，实现全GPU推理与异构推理的融合[5] - GitHub Star数已突破15.2K，成为全球Star数排名前列的大模型推理框架[24] - 获得Qwen、Kimi、智谱AI等多个主流大模型在发布首日推荐作为推理引擎支持，工程实践与兼容性被多家一体机产品线采纳[24] - 趋境科技作为核心推动者，已与多个国产CPU、GPU硬件平台合作，共同推进全国产高性价比方案，为数十家行业开发伙伴提供算力底座[28] 未来发展方向 - 研究团队已在内部试水微调，计划在不扩卡、不改架构的前提下实现轻量调优，从"能跑"向"能调"演进[30] - 目标让大模型推理不再专属于高端算力，让AI能力也不再专属于少数企业，逐步实现算力普惠[29]