DFlash - 财报，业绩电话会，研报，新闻 - Reportify

DFlash

搜索文档

梁文锋署名的DSpark，看懂这10个点就够了！

量子位· 2026-06-28 14:30

闻乐发自凹非寺量子位 | 公众号 QbitAI 梁文锋署名的DeepSeek新论文 DSpark 你可能刷到过了—— 单用户速度提升85%、高并发场景有效吞吐翻4倍。但你真的看懂了吗？别急，有人替你拆解了一遍。 Fireworks AI的联合创始人兼CTO、PyTorch核心维护者 Dmytro Dzhulgakov 将整篇论文梳理成了10个概念，从最底层的GPU访存特性讲到最上层的在线自适应调度。他认为： DeepSeek这套方案真正的精髓在于系统工程和模型协同设计。相关基础思路前人已有提出，难能可贵的是其将各类技术融合为一套自适应完整系统，实现了端到端的显著性能优化。下面我们就顺着这10个概念过一遍DSpark。 10个概念理解DSpark 批处理解码（Batching in LLM Decoding）想要搞懂大模型各类推理加速技术，首先要理解GPU一个非常特殊的运行特性：让GPU同时解码10个token，其实只比解码1个token慢一点点。卡帕西曾经讲过，原因在于大模型推理的瓶颈不是浮点运算，而是显存带宽，GPU大部分时间花在把模型权重从显存搬到计算核心上。搬一次也是搬， ...

马尔可夫头

可变长度草稿与硬件感知调度

在线草稿器校准

批处理解码

马尔可夫头

可变长度草稿与硬件感知调度

在线草稿器校准

批处理解码