梁文锋署名，DeepSeek发布最新论文

文章核心观点 - 公司在获得500亿融资后，迅速发布并开源了推测解码优化框架DSpark，重点在于工程落地层面的优化，而非模型版本迭代 [3] - 该框架旨在通过提升大模型推理速度来降低部署和服务的成本与门槛，解决产业真实痛点，标志着行业竞争焦点从单纯模型跑分转向“更快、更省算力”的落地效率 [14] 技术发布与落地验证 - DSpark框架已全面部署于公司自身的DeepSeek-V4-Flash和V4-Pro线上服务，替代了此前的MTP-1生产基线 [6] - 在同等系统总吞吐下，V4-Flash的单用户生成速度提升60%-85%，V4-Pro提升57%-78% [6] - 该框架已完成真实用户流量落地验证，并已兼容部署到阿里旗下的Qwen3-4B、8B、14B以及Gemma4-12B等国内外主流基座模型 [6][7] 技术原理与突破 - 推测解码是行业公认的解决大语言模型自回归生成延迟问题的路径，即用轻量级草稿模型快速生成候选token，再由大模型批量验证 [9] - 现有方案存在短板：自回归草稿模型（如Eagle3）草稿耗时随块长线性增长；并行草稿模型（如DFlash）存在生成质量瓶颈和系统效率瓶颈 [11][12] - DSpark提出两项互补机制解决瓶颈：一是半自回归生成架构，在并行主干中加入轻量级串行模块以提升依赖建模能力；二是置信度调度验证机制，根据实时吞吐动态决定最优验证长度 [13] - 实验表明，仅两层Transformer深度的DSpark即可在所有测试领域超过五层DFlash的接受长度 [13] 性能表现与优势 - 在Qwen3-4B/8B/14B模型上，DSpark的宏平均接受长度相对Eagle3提升30.9%、26.7%、30.0%；相对DFlash提升16.3%、18.4%、18.3% [8] - 该优势具备跨模型泛化能力，在Gemma4-12B目标模型上也取得了一致的性能增益 [8] - 性能提升存在领域差异：结构化任务（如数学推理、代码生成）的可接受长度天然更高，例如Qwen3-4B在数学任务上平均为5.57，代码任务为5.12；而开放式对话场景则明显偏低，仅3.49 [8] 开源生态与产业影响 - 随DSpark一同开源的DeepSpec是一个用于训练和评估推测解码草稿模型的全栈代码库，包含数据准备工具、草稿模型实现、训练代码和评估脚本，支持MIT许可 [3] - DeepSpec已内置DSpark、DFlash和Eagle3三种实现 [3] - 配套仓库、模型权重全部开源，使得缺乏底层算法团队的中小企业和ToB服务商无需投入巨额研发即可复用成熟推理优化方案，大幅降低大模型私有化部署和线上服务的落地门槛 [7] - 智能体、工业代码、金融舆情等场景的规模化落地速度有望因此加快 [7] 当前局限与未来方向 - 当前方案对于本身可预测性极低、接受率偏低的复杂查询，存在前置草稿算力无法回收的局限 [8] - 未来的优化方向可在草稿模型内部引入难度感知的早退出机制，使此类请求能够跳过完整块生成流程 [8]