Long Text - 财报，业绩电话会，研报，新闻

Long Text

搜索文档

大模型 “注意力简史”：与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起

晚点LatePost· 2025-03-02 14:10

大模型注意力机制改进 - 近期DeepSeek和Kimi分别推出NSA和MoBA架构，聚焦改进大模型核心机制"注意力机制"，旨在提升长文本处理能力[4] - 注意力机制优化需解决两大瓶颈：显存开销随序列长度线性增长、计算复杂度呈平方级增长[16] - 稀疏注意力成为主流改进方向，通过仅保留关键连接提升效率，数学上Softmax机制天然支持稀疏性[16] 技术实现路径 - NSA采用硬件协同设计，在Block级别进行稀疏计算，利用Triton框架优化GPU并行效率，实现11.6倍解码加速[24][31] - MoBA创新性地在预训练阶段引入稀疏性，通过混合分块注意力保留远距离关键信息，效果超越稠密注意力[20][37] - 两种方案均采用动态稀疏机制，结合内容相关性动态选择关注区域，平衡效率与效果[38] 性能验证 - NSA在270亿参数模型训练中，损失曲线与稠密注意力趋同，推理任务表现更优[42][46] - MoBA在Llama-8B模型测试中，GSM8K数学推理得分达0.7278，优于稠密模型的0.7142[49] - 长文本专项测试显示，32K输入下末端1K词元预测损失显著降低[43] 行业应用前景 - 多模态发展将大幅增加输入长度，1小时视频相当于100万token，需开发跨模态注意力模式[55] - 长思维链生成成为RL训练关键，DeepSeek-R1显示输出长度随训练步数持续增长[26][28] - 科研场景被视为AGI重要突破口，需存储数月研究过程数据并支持复杂推理[59][62] 硬件与算法协同 - GPU显存发展滞后算力增长，B200显存仅为A100的1.2倍，迫使算法层压缩存储需求[53] - 系统层优化如FlashAttention使显存占用降低量级，算子级优化成为效率突破关键[20][35] - 未来可能结合RNN固定存储优势与注意力机制，探索存储复杂度新平衡点[53]

Artificial Intelligence

Artificial Intelligence

NSA