梁文锋署名，DeepSeek发布最新论文

核心观点 - 在获得500亿融资后，公司迅速联合北京大学发布并开源了推测解码优化框架DSpark及相关工具库DeepSpec，此举并非模型迭代，而是聚焦于工程落地层面的效率优化[1] - 该技术通过“半自回归生成架构”和“置信度调度验证机制”两项突破，有效解决了现有推测解码方案在生成质量和系统效率上的瓶颈，实现了显著的推理加速[7][8][9] - 该框架已成功部署于公司自有模型及阿里Qwen、谷歌Gemma等国内外主流基座模型，并经过真实用户流量验证，能大幅降低大模型私有化部署和线上服务的门槛，加速产业规模化落地[3][4][11] 技术发布与落地验证 - 公司于6月27日发布论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》，并开源了用于训练和评估推测解码草稿模型的全栈代码库DeepSpec，支持MIT许可[1] - 该框架已全面部署于DeepSeek-V4-Flash和V4-Pro的线上服务，替代了原有生产基线，在同等系统总吞吐下，V4-Flash单用户生成速度提升60%-85%，V4-Pro提升57%-78%[3] - 除自有模型外，DSpark也已部署到阿里Qwen3-4B/8B/14B及谷歌Gemma4-12B等模型上，并在数学推理、代码生成、日常对话三大评测领域验证了效果[3] 性能表现与数据优势 - 论文数据显示，DSpark在全部目标模型和评测领域下，性能稳定超越自回归基线Eagle3与并行基线DFlash[5] - 以Qwen3系列模型为例，DSpark的宏平均接受长度相比Eagle3提升26.7%至30.9%，相比DFlash提升16.3%至18.3%，该优势在Gemma4-12B模型上也取得了一致的性能增益[5] - 实验数据揭示了显著的领域差异效应：结构化任务（如数学推理、代码生成）的可接受长度天然更高，而开放式对话场景则明显偏低[6] 技术原理与突破 - 大语言模型自回归生成方式导致推理延迟随输出长度线性增长，推测解码是行业公认的解决路径，即用轻量级草稿模型快速生成候选token再由大模型批量验证[7] - 现有方案存在短板：自回归草稿模型（如Eagle3）草稿耗时随候选块长线性增长；并行草稿模型（如DFlash）虽能并行生成，但存在无法建模token依赖导致接受率衰减，以及系统效率瓶颈[8] - DSpark通过两项技术实现突破：1）半自回归生成架构，在保留并行高吞吐优势的同时加入轻量级串行模块注入前缀依赖信息，仅两层Transformer深度即可超过五层DFlash的接受长度；2）置信度调度验证机制，动态决定最优验证长度，优先将算力分配给预期回报最高的token[9] 行业影响与战略意义 - 公司在完成大额融资后并未单纯追求参数规模扩张，而是关注落地效率，直击产业在推理速度和算力成本方面的真实痛点[11] - DSpark框架及配套工具、模型权重的全面开源，使得缺乏底层算法团队的中小企业及ToB服务商无需投入巨额研发即可复用成熟的推理优化方案，大幅降低了大模型私有化部署和线上服务的门槛[4] - 在生成式AI从实验室走向商业化的周期里，“更快、更省算力”正在取代单纯的模型跑分，成为厂商竞争力的关键指标，该技术的发布有望加速智能体、工业代码、金融舆情等场景的规模化落地[11][4]