NSA

搜索文档
刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
36氪· 2025-07-31 11:40
会议概况 - ACL 2025是第63届计算语言学和自然语言处理领域的顶级国际会议 于2025年7月27日至8月1日在奥地利维也纳举行[1] - 今年总投稿数创历史之最 高达8000多篇 较去年的4407篇大幅增长 主会论文和Findings的接收率分别为20.3%和16.7%[3] - 在所有论文的第一作者中 超过半数作者来自中国 占比达51.3% 而去年仅为30.6% 美国作者数量排名第二 占比14.0%[3] 获奖论文 - 今年共评选出4篇最佳论文 2篇最佳社会影响力论文 3篇最佳资源论文 3篇最佳主题论文 26篇杰出论文 2篇TACL最佳论文 1篇最佳Demo论文以及47篇SAC Highlights[5] - 4篇最佳论文分别由DeepSeek团队(梁文锋参与撰写) 北大杨耀东团队 CISPA亥姆霍兹信息安全中心&TCS Research&微软团队以及斯坦福大学&Cornell Tech团队获得[8] 最佳论文详情 - DeepSeek团队论文提出原生稀疏注意力机制NSA 用于超快长上下文训练和推断 具有硬件对齐和本地可训练的特点[22][24] - 北大杨耀东团队论文从数据压缩角度揭示大模型存在抵抗对齐的弹性机制 预训练越充分的模型弹性越强 对齐难度远超预期[14][16] - CISPA等机构合作论文提出通过差异意识视角研究算法公平性 构建包含16000个问题的基准套件评估差异意识[9][13] - 斯坦福大学等机构论文研究LLM在自主决策中的采样行为 发现其与人类决策启发式方法相似 存在向规范性成分的偏差[9][11] 技术突破 - NSA注意力机制通过分层token建模和组织键值成时间块 在260B token的27B参数Transformer上预训练 实现与Full Attention相当性能同时显著加速[24][25][28] - 模型对齐研究指出后训练所需资源与算力可能需要与预训练阶段相当甚至更多 对AI安全与对齐提出严峻挑战[16] - 稀疏注意力设计有效平衡模型能力和计算效率 解码 前向和后向阶段加速比随序列长度增加而增加[28] 行业影响 - 华人团队在ACL 2025表现突出 中国作者占比超过半数 在最佳论文等重要奖项中占据显著位置[3][8] - 大模型安全对齐研究成果获得ACL 2025审稿人及大会主席高度认可 被认为提供新的理论视角与坚实基础[17] - 注意力机制研究持续突破 DeepSeek提出的NSA架构为长上下文建模提供高效解决方案 推动下一代LLM发展[22][24]
刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
机器之心· 2025-07-31 00:25
ACL 2025大会概况 - 本届ACL大会投稿数创历史新高,达8000多篇,较去年4407篇增长81% [3] - 主会论文接收率20.3%,Findings接收率16.7% [3] - 中国作者占比首次过半达51.3%,远超美国14.0% [4] - 共颁发4篇最佳论文、2篇最佳社会影响力论文、3篇最佳资源论文等多项奖项 [6] 最佳论文研究成果 - DeepSeek团队与北大杨耀东团队包揽4篇最佳论文中的2篇 [10] - 杨耀东团队论文揭示大模型存在"弹性机制",导致对齐困难且需与预训练相当的资源 [24][25] - DeepSeek提出NSA注意力机制,在27B参数模型上实现长上下文高效训练与推理 [33][40] - NSA通过分层token建模实现260B token预训练,性能媲美Full Attention但计算效率更高 [37][41] 技术创新方向 - 大模型安全领域突破:发现模型参数存在抵抗对齐的结构性惯性 [24] - 高效训练技术:NSA实现硬件对齐的稀疏注意力,解码速度随序列长度增加而提升 [36][41] - 数据质量评估:Meta-rater提出四维度数据选择方法提升预训练效率 [55] - 评估效率优化:SubLIME方法可将LLM评估成本降低80%-99% [56] 行业影响与趋势 - 华人团队学术影响力显著提升,包揽最佳论文半数奖项 [10] - 大模型基础架构创新持续涌现,注意力机制优化成为关键突破点 [33][37] - 模型安全与对齐挑战凸显,需重新评估现有技术路线 [24][25] - 高效训练与推理技术获重点关注,推动商业化应用落地 [40][41]
ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
机器之心· 2025-06-13 23:45
长文本建模的挑战与GCA的创新 - 长文本建模面临两大核心挑战:主流LLMs的Transformers架构存在平方复杂度及显存开销线性增长问题,以及full-attention外推能力有限难以泛化到超长输入[1] - 高效处理长上下文不仅关乎工业界降本增效,更涉及AGI核心问题——构建具有永久记忆的智能体,这将成为大语言模型公司的数据护城河[1] - 蚂蚁团队提出GCA机制,模拟人类开卷考试模式,通过因果检索注意力实现端到端学习,仅关注相关历史片段,显著降低显存开销[2] GCA技术原理与架构 - GCA采用两阶段注意力机制:分组注意力收集各chunk信息,chunk-level融合通过softmax加权整合关键信息用于预测[14][15] - 架构结合GCA与滑动窗口注意力,前者负责长程检索后者处理短程信息,通过Triton kernel实现优化显存管理[15] - 与传统检索方式相比,GCA让检索分参与前向运算获得梯度,实现检索模块的端到端学习[13] 实验性能表现 - 128M模型实现1000倍长度泛化,16K预训练模型在16M上下文passkey retrieval达到100%准确率[5][17] - 训练开销随序列长度呈线性增长,推理显存接近常数且速度持平Transformers,CPU卸载策略使48K上下文显存仅增加1.62倍[17][20] - 在arXiv-math数据中展示语义级检索能力,能识别引理和变量声明的逻辑相关性[21] 行业技术对比 - 相比滑动窗口注意力牺牲长程信息、温度调节法泛化有限等现有方案,GCA突破性地实现有效利用超长上文信息[7][8] - 与DeepSeek的NSA形成技术互补:GCA侧重长度泛化,NSA优化稀疏attention,后续HSA工作融合两者优势[5] 开源与学术影响 - 技术实现已通过Triton kernel全部开源,论文被ICML 2025接收[3][11] - 尽管实验规模较小,但为机器永久记忆机制提供新思路,首次实现16M长度完美信息检索[23]
大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起
晚点LatePost· 2025-03-02 14:10
大模型注意力机制改进 - 近期DeepSeek和Kimi分别推出NSA和MoBA架构,聚焦改进大模型核心机制"注意力机制",旨在提升长文本处理能力[4] - 注意力机制优化需解决两大瓶颈:显存开销随序列长度线性增长、计算复杂度呈平方级增长[16] - 稀疏注意力成为主流改进方向,通过仅保留关键连接提升效率,数学上Softmax机制天然支持稀疏性[16] 技术实现路径 - NSA采用硬件协同设计,在Block级别进行稀疏计算,利用Triton框架优化GPU并行效率,实现11.6倍解码加速[24][31] - MoBA创新性地在预训练阶段引入稀疏性,通过混合分块注意力保留远距离关键信息,效果超越稠密注意力[20][37] - 两种方案均采用动态稀疏机制,结合内容相关性动态选择关注区域,平衡效率与效果[38] 性能验证 - NSA在270亿参数模型训练中,损失曲线与稠密注意力趋同,推理任务表现更优[42][46] - MoBA在Llama-8B模型测试中,GSM8K数学推理得分达0.7278,优于稠密模型的0.7142[49] - 长文本专项测试显示,32K输入下末端1K词元预测损失显著降低[43] 行业应用前景 - 多模态发展将大幅增加输入长度,1小时视频相当于100万token,需开发跨模态注意力模式[55] - 长思维链生成成为RL训练关键,DeepSeek-R1显示输出长度随训练步数持续增长[26][28] - 科研场景被视为AGI重要突破口,需存储数月研究过程数据并支持复杂推理[59][62] 硬件与算法协同 - GPU显存发展滞后算力增长,B200显存仅为A100的1.2倍,迫使算法层压缩存储需求[53] - 系统层优化如FlashAttention使显存占用降低量级,算子级优化成为效率突破关键[20][35] - 未来可能结合RNN固定存储优势与注意力机制,探索存储复杂度新平衡点[53]
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
晚点LatePost· 2025-02-20 22:21
注意力机制优化进展 - Kimi和DeepSeek同日发布注意力机制改进成果MoBA和NSA,均针对Transformer核心组件"注意力机制"进行创新[2] - 标准全注意力机制存在计算复杂度随文本长度平方级增长的问题,成为制约长上下文能力的关键瓶颈[4] - 行业出现两大优化方向:稀疏注意力机制(如NSA/MoBA/InfLLM)和线性注意力机制(如MiniMax-01),前者侧重稳健优化,后者尝试根本性解决计算爆炸问题[5] MoBA技术演进 - 项目始于2023年5月,初始目标为支持16K长度预训练,后升级至128K需求,经历v0.5到v2三次架构迭代[6][12][16] - 关键技术突破包括:采用Online Softmax实现与全注意力机制的可对照调试、解决注意力汇聚点问题、最终形成极简单层稀疏注意力结构[13][16] - 在1M长度测试中达到与全注意力机制持平的性能指标,已部署至Kimi生产环境[20] 行业竞争格局 - 中国头部AI公司密集发布注意力机制创新:MiniMax-01采用线性注意力,面壁智能InfLLM被NSA论文引用[5] - 微软亚研院专家指出稀疏注意力与线性注意力的本质差异:前者保留复杂依赖关系捕捉能力,后者可能牺牲部分长程关联性[5] - 清华大学团队证实NSA和MoBA均采用动态注意力选择机制,相比静态方法显著提升模型性能[5] 工程实现细节 - MoBA开源代码已在GitHub发布,包含完整工程实现与技术论文,实际经过1年多线上验证[6][25] - 解码阶段对MHA效果最佳(IO优化达理论最大值),但对GQA/MQA效果递减[22] - Triton实现版本曾获得10%+性能提升,但因维护成本过高暂未持续优化[24] 研发方法论 - 采用"饱和救援"模式推进技术攻坚,整合跨团队资源进行多轮消融实验[15][19] - 通过"思过崖"机制实现快速试错与迭代,三次关键架构调整分别解决参数膨胀、训练不稳定和SFT效率问题[8][13][19] - 最终方案保留数学严谨性(支持全注意力模式对照)与工程实用性(单机/分布式兼容)的双重优势[16][20]