DFlash
搜索文档
梁文锋署名的DSpark,看懂这10个点就够了!
量子位· 2026-06-28 14:30
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 梁文锋署名的DeepSeek新论文 DSpark 你可能刷到过了—— 单用户速度提升85%、高并发场景有效吞吐翻4倍。 但你真的看懂了吗? 别急,有人替你拆解了一遍。 Fireworks AI的联合创始人兼CTO、PyTorch核心维护者 Dmytro Dzhulgakov 将整篇论文梳理成了10个概念,从最底层的GPU访存特性讲 到最上层的在线自适应调度。 他认为: DeepSeek这套方案真正的精髓在于系统工程和模型协同设计 。 相关基础思路前人已有提出,难能可贵的是其将各类技术融合为一套自适应完整系统,实现了端到端的显著性能优化。 下面我们就顺着这10个概念过一遍DSpark。 10个概念理解DSpark 批处理解码(Batching in LLM Decoding) 想要搞懂大模型各类推理加速技术,首先要理解GPU一个非常特殊的运行特性: 让GPU同时解码10个token,其实只比解码1个token慢一点点。 卡帕西曾经讲过,原因在于大模型推理的瓶颈不是浮点运算,而是 显存带宽 ,GPU大部分时间花在把模型权重从显存搬到计算核心上。 搬一次也是搬, ...