DeepSeek V4 借实习生获奖论文“起飞”？梁文峰剑指上下文：处理速度提10倍、要“完美”准确率

中国作者在ACL获奖论文中的表现 - 2025年ACL获奖论文中中国作者比例超过51% 美国作者占比仅为14% [1] - DeepSeek梁文锋作为通讯作者与北京大学联合发表的论文获得Best Paper奖 [1] - 论文第一作者袁境阳在撰写论文时仅为DeepSeek实习生 [1] NSA技术创新与设计 - 提出NSA（Natively trainable Sparse Attention）机制结合算法创新与硬件优化以实现高效长上下文建模 [4] - NSA采用动态分层稀疏策略结合粗粒度token压缩和细粒度token选择保留全局上下文感知和局部精度 [4] - 引入两项核心创新：算术强度平衡的算法设计实现显著加速高效算法和反向算子实现稳定端到端训练 [6] NSA性能表现 - 在270亿参数Transformer骨干网络上预训练使用2600亿token 激活参数为30亿 [8] - 在9项指标中的7项上超过全注意力模型在内的所有基线 DROP提升0.042 GSM8K提升0.034 [8] - 在64k上下文"大海捞针"测试中实现完美检索准确率解码、前向传播和反向传播速度显著提升 [9] - 在多跳问答任务（HPQ和2Wiki）上比全注意力模型分别提升0.087和0.051 代码理解任务（LCC）超出基线0.069 [10] 计算效率优势 - 在64k上下文长度下前向速度提升高达9.0倍反向速度提升高达6.0倍 [15] - 解码长度增加时延迟显著降低 64k上下文长度下提速高达11.6倍 [15] DeepSeek下一代模型规划 - 论文成果将应用于DeepSeek下一代前沿模型支持100万tokens上下文长度 [1][17] - DeepSeek R2发布计划可能与V4相关创始人梁文锋对当前模型性能不满意导致推迟 [17]