梁文锋署名的DSpark，看懂这10个点就够了！

文章核心观点 - DeepSeek 提出的 DSpark 方案是一套系统工程和模型协同设计的成果，其精髓在于将各类已有技术融合为一套自适应完整系统，实现了端到端的显著性能优化，在单用户场景下速度提升85%，高并发场景有效吞吐翻4倍 [1][5][85] 大模型推理加速基础原理 - GPU在大模型推理中的瓶颈在于显存带宽，而非浮点运算 [8] - 连续批处理技术通过将多个请求的token塞进同一个batch，让每一次显存读取都物尽其用，这是推测解码等技术能奏效的基础 [9][10] 推测解码（Speculative Decoding）技术 - 推测解码用“猜+验”替代自回归模型的“逐字生成”，以突破其无法直接并行生成的限制 [12][13][16] - 该技术通过拒绝采样验证候选序列，在数学上保证输出分布与原模型完全一致，没有任何质量损失 [14][15] - 其加速效果取决于降低草稿耗时、提高接受token数(τ)、减少验证浪费这三个杠杆 [29][30][32] 草稿模型（Draft Model）的演进 - 早期方案使用独立小模型作为“草稿器”，由速度型草稿器猜测，力量型目标模型验证 [20][21][23] - Eagle与MTP（Multi-Token Prediction）方案优化了草稿模型构造，直接复用目标模型最后一层的隐藏状态，加上1-2层Transformer头作为草稿器，兼具速度快和猜测准的优点 [34][35][36] - DFlash方案采用并行骨干网络，一次前向传播同时产出全部N个候选token以追求速度，但存在因缺乏依赖关系导致的后缀衰减（suffix decay）问题，即多模态碰撞导致越靠后的token接受率急剧下滑 [40][41][42][44][45] DSpark的核心创新与设计 - DSpark的核心创新是结合并行与串行，各取所长：先用DFlash的并行骨干网络快速生成所有位置的基础logits，再用一个轻量级的顺序头（如马尔可夫头）逐个位置注入前缀依赖偏置以修正后缀衰减 [48][49][50][53] - 该设计在离线测试中，平均接受长度比Eagle3高26%–31%，比DFlash高16%–18% [54] - 其串行模块（如马尔可夫头）成本极低，通过低秩分解（rank 256）等技术，计算成本几乎可忽略，草稿长度从4扩展到16，每轮额外增加的延迟只有0.2%–1.3%，但接受长度最高提升了30% [58][59] 自适应调度与系统优化 - DSpark采用可变长度草稿与硬件感知调度，通过置信度头为每个草稿位置打分，预估其在验证中的存活概率，并依据预先测算的GPU吞吐量参考曲线，动态为每条请求匹配最优验证长度 [66][70][72] - 系统引入在线草稿器校准，使用顺序温度缩放做后处理校准，以解决神经网络过度自信的问题，将预期校准误差从3%–8%压到约1%，并根据当前工作负载的实际接受率动态修正阈值，实现自适应 [75][76][80][82][84] - 整套调度逻辑完全在GPU内部执行，无需CPU参与 [73] 生态影响与开源情况 - DeepSeek将相关技术全栈训练库DeepSpec开源，Eagle3、DFlash、DSpark三种草稿模型的训练代码全部放出，支持Qwen3和Gemma等外部模型 [86] - 配套的DeepSpec库在GitHub已获得1.4k Star，引发了开发者社区的广泛关注和实践 [87]