文章核心观点 - DeepSeek 提出的 DSpark 方案是一套系统工程和模型协同设计的成果,其精髓在于将各类已有技术融合为一套自适应完整系统,实现了端到端的显著性能优化,在单用户场景下速度提升85%,高并发场景有效吞吐翻4倍 [1][5][85] 大模型推理加速基础原理 - GPU在大模型推理中的瓶颈在于显存带宽,而非浮点运算 [8] - 连续批处理技术通过将多个请求的token塞进同一个batch,让每一次显存读取都物尽其用,这是推测解码等技术能奏效的基础 [9][10] 推测解码(Speculative Decoding)技术 - 推测解码用“猜+验”替代自回归模型的“逐字生成”,以突破其无法直接并行生成的限制 [12][13][16] - 该技术通过拒绝采样验证候选序列,在数学上保证输出分布与原模型完全一致,没有任何质量损失 [14][15] - 其加速效果取决于降低草稿耗时、提高接受token数(τ)、减少验证浪费这三个杠杆 [29][30][32] 草稿模型(Draft Model)的演进 - 早期方案使用独立小模型作为“草稿器”,由速度型草稿器猜测,力量型目标模型验证 [20][21][23] - Eagle与MTP(Multi-Token Prediction)方案优化了草稿模型构造,直接复用目标模型最后一层的隐藏状态,加上1-2层Transformer头作为草稿器,兼具速度快和猜测准的优点 [34][35][36] - DFlash方案采用并行骨干网络,一次前向传播同时产出全部N个候选token以追求速度,但存在因缺乏依赖关系导致的后缀衰减(suffix decay)问题,即多模态碰撞导致越靠后的token接受率急剧下滑 [40][41][42][44][45] DSpark的核心创新与设计 - DSpark的核心创新是结合并行与串行,各取所长:先用DFlash的并行骨干网络快速生成所有位置的基础logits,再用一个轻量级的顺序头(如马尔可夫头)逐个位置注入前缀依赖偏置以修正后缀衰减 [48][49][50][53] - 该设计在离线测试中,平均接受长度比Eagle3高26%–31%,比DFlash高16%–18% [54] - 其串行模块(如马尔可夫头)成本极低,通过低秩分解(rank 256)等技术,计算成本几乎可忽略,草稿长度从4扩展到16,每轮额外增加的延迟只有0.2%–1.3%,但接受长度最高提升了30% [58][59] 自适应调度与系统优化 - DSpark采用可变长度草稿与硬件感知调度,通过置信度头为每个草稿位置打分,预估其在验证中的存活概率,并依据预先测算的GPU吞吐量参考曲线,动态为每条请求匹配最优验证长度 [66][70][72] - 系统引入在线草稿器校准,使用顺序温度缩放做后处理校准,以解决神经网络过度自信的问题,将预期校准误差从3%–8%压到约1%,并根据当前工作负载的实际接受率动态修正阈值,实现自适应 [75][76][80][82][84] - 整套调度逻辑完全在GPU内部执行,无需CPU参与 [73] 生态影响与开源情况 - DeepSeek将相关技术全栈训练库DeepSpec开源,Eagle3、DFlash、DSpark三种草稿模型的训练代码全部放出,支持Qwen3和Gemma等外部模型 [86] - 配套的DeepSpec库在GitHub已获得1.4k Star,引发了开发者社区的广泛关注和实践 [87]
梁文锋署名的DSpark,看懂这10个点就够了!
量子位·2026-06-28 14:30