报告行业投资评级 - 行业投资评级:强于大市(维持)[1] 报告核心观点 - DeepSeek的稀疏注意力机制(特别是NSA和DSA)通过提升计算效率和拓展模型上下文,为AI产业释放了更大的发展潜能,将成为推动模型能力不断突破的重要支撑[8][37] 注意力机制与大模型发展的关系 - 注意力机制模仿人类选择性关注关键信息的能力,解决了长序列遗忘问题[11] - 稀疏注意力将计算复杂度从O(L²)降至亚平方级(如O(Llog L)、O(Lk)),突破内存与算力瓶颈[11] - 经过多代技术迭代,大模型上下文已扩充到128K甚至是1M的长度水平[11] DeepSeek在注意力机制方面的技术改进 - MLA:DeepSeek在V2中引入多头潜在注意力,将注意力分数的显存占用减少约90%,成为R1成本显著低于头部模型的重要因素[12][16] - NSA:2025年2月提出的原生稀疏注意力,通过算法和硬件协同优化,将长文本处理速度提升11倍,可实现与全注意力模型相当或更优的性能[8][18] - DSA:2025年9月V3.2-Exp引入的稀疏注意力机制,带来训练推理效率大幅提升,API价格大幅降价超50%[8][23] DSA和NSA的技术特点对比 - NSA参与整个预训练过程,DSA基于V3.1-Terminus基座继续预训练而来,可低成本进行稀疏注意力探索[27] - DSA通过TileLang实现,NSA选用OpenAI开源的Triton,TileLang可实现更多深度优化,更有利于国产芯片生态适配[27] - DSA通过"闪电索引器"逐词判断找出重要词汇(2048个)进行细粒度稀疏计算,NSA将文本分成"块"分三层挑重点[30] 稀疏注意力对AI产业的影响 - 稀疏注意力带来的计算效率提升和模型上下文拓展,将为后训练释放更大的发展潜能[37] - V3.2-Exp的API调用价格显著降低:输入缓存命中时价格为R1的20%(0.2元/百万Tokens),输入缓存未命中时为R1的50%(2元/百万Tokens),输出价格为R1的19%(3元/百万Tokens)[23] - 成本的下降意味着模型具有更好的性价比和可推广性,将促进应用端实现更多功能落地[23]
人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能
中原证券·2025-10-16 19:46