原生稀疏注意力机制

搜索文档
DeepSeek下一代技术提前曝光,梁文锋署名论文获ACL2025最佳论文奖
量子位· 2025-07-31 07:56
论文获奖与技术突破 - DeepSeek梁文锋与北京大学联合发表的论文荣获ACL 2025最佳论文奖,论文提出原生稀疏注意力(NSA)机制[1] - ACL 2025总投稿量达8360篇,较去年4407篇增长近一倍,竞争激烈[2] - NSA机制通过算法与硬件协同优化,将长文本处理速度提升11倍,性能超越传统全注意力模型[3] NSA技术细节 - NSA采用动态分层稀疏策略,包含三条并行注意力分支:压缩注意力(全局信息)、选择性注意力(关键词块)、滑动注意力(局部上下文)[10][17] - 架构针对现代GPU深度优化,实现端到端原生可训练模式[13] - 处理64k长度序列时,NSA解码速度提升11.6倍,前向传播提升9倍,反向传播提升6倍[15][16] 性能表现 - 27B参数NSA模型在9项基准测试中7项超越全注意力基线,DROP提升0.042,GSM8K提升0.034[19] - 64k上下文"大海捞针"测试中检索准确率100%,LongBench基准平均分0.469,领先全注意力基线0.032[21] - 微调后NSA-R模型在AIME 24数学测试中,8k上下文准确率0.121(全注意力0.046),16k上下文达0.146(全注意力0.092)[22][23] 应用前景 - 技术可扩展至1百万tokens上下文长度,预计应用于下一代DeepSeek-V4及DeepSeek-R2模型[4][6] - 实验使用DeepSeek-R1蒸馏数据微调新模型,显示技术迭代路径[5] 其他获奖研究 - 北大团队揭示语言模型对齐后易因微调"反弹",需开发更稳固的对齐技术[26] - 斯坦福研究提出"差异感知"公平性新视角,发现传统去偏见方法可能削弱模型情境判断力[28] - 亥姆霍兹中心指出LLMs生成回答存在向"理想值"偏移现象,可能导致医疗等领域决策偏差[29]