Attention Mechanism
搜索文档
韩松等提出FlashMoBA,比MoBA快7.4倍,序列扩到512K也不会溢出
机器之心· 2025-11-18 13:08
机器之心报道 机器之心编辑部 今年 2 月,月之暗面提出了一种名为 MoBA 的注意力机制,即 Mixture of Block Attention,可以直译为「块注意力混合」。 据介绍,MoBA 是「一种将混合专家(MoE)原理应用于注意力机制的创新方法。」该方法遵循「更少结构」原则,并不会引入预定义的偏见,而是让模型自主 决定关注哪些位置。 MoBA 在处理长上下文时表现出极强的潜力,它允许 Query 只稀疏地关注少量 Key-Value 块,从而大幅降低计算成本。 然而,目前业界对 MoBA 性能背后的设计原则仍缺乏深入理解,同时也缺少高效的 GPU 实现,这限制了其实际应用。 在这篇论文中,来自 MIT、NVIDIA 机构的研究者首先建立了一个统计模型,用于分析 MoBA 的内部机制。模型显示,其性能关键取决于路由器是否能够基于 Query-Key 的相似度,准确区分相关块与无关块。研究者进一步推导出一个信噪比,将架构参数与检索准确率建立起形式化联系。 基于这一分析,本文识别出两条主要的改进路径:一是采用更小的块大小,二是在 Key 上应用短卷积,使语义相关信号在块内聚集,从而提升路由准确性。 然而 ...
从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”
36氪· 2025-09-22 21:04
Transformer架构的诞生与影响 - 2017年论文《Attention Is All You Need》提出Transformer架构,彻底抛弃循环神经网络,仅使用注意力机制处理语言,重塑人工智能领域[1] - 该论文截至发文时在Google Scholar上的引用次数高达197,159次,证明其巨大影响力[1][23] - Transformer架构成为驱动手机输入预测文本、DALL-E图像生成及ChatGPT等应用的底层核心技术[1] 核心研发团队与职业路径 - 论文八位作者包括Ashish Vaswani、Niki Parmar等,被AI技术圈称为"Transformer八子"[2] - 八子中七位已踏上创业之路,创立Cohere、Character.ai、Adept AI Labs等公司,成为AI产业商业巨擘[3][20] - Lukasz Kaiser是八子中唯一未创业的科学家,于2021年加入OpenAI,深度参与GPT-4、GPT-5及推理模型o1、o3等核心研发工作[3][21][23] Lukasz Kaiser的学术背景与研究理念 - Kaiser拥有波兰弗罗茨瓦夫大学计算机科学与数学双硕士学位,在德国亚琛工业大学获博士学位,专攻"自动结构上的逻辑与博弈"[5] - 2009年荣获逻辑学领域最高学术荣誉之一E.W. Beth dissertation prize,证明其在理论科学领域达到世界顶尖水平[6] - 2013年辞去法国国家科学研究中心的终身研究员职位加入Google Brain,体现其从理论证明向实际构建的转变[7][8] 技术突破与行业影响 - Transformer架构解决了RNN的长距离依赖问题和串行处理效率低下的缺陷,与GPU/TPU硬件发展趋势完美匹配[10][11][12] - 团队开发Tensor2Tensor开源库旨在降低深度学习门槛,体现普惠AI理念[13][14] - 2017年同期论文《One Model To Learn Them All》提出MultiModel架构,首次证明统一深度学习模型有潜力联合学习多领域知识,是AGI追求的早期探索[17][18][19] AI技术演进与未来方向 - Kaiser将深度学习演进路径概括为:证明可行性→架构创新→自监督预训练→规模定律→数据质量与RLHF[24] - 2021年预言AI发展的三个方向——多模态融合、更大更好的Transformer、模型服务化——如今已逐步成为现实[25] - 未来AI发展关键在于教会模型通过生成更多中间步骤进行深度思考和推理,计算力将从大规模预训练转向高质量数据的海量推理计算[25][26]
被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
机器之心· 2025-05-01 10:11
核心观点 - 2015年发表的论文《End-To-End Memory Networks》虽被Transformer的光芒掩盖,但已包含当前大型语言模型(LLM)的核心要素,如多层注意力机制、位置嵌入等 [2][8][22] - 该论文被引量仅3000+,远低于Transformer论文的17万+,但其创新性被行业低估 [3][9] 技术突破 - **注意力机制创新**:首次完全用注意力替代RNN,引入带键值投影的点积软注意力,并堆叠多层注意力结构 [8] - **位置嵌入**:为解决注意力顺序不变性问题引入时间嵌入(现称位置嵌入),现已成为LLM标准技术 [18][22] - **推理能力验证**:首次证明多层软注意力可产生复杂推理能力,奠定现代AI架构基础 [13] 研究背景 - 研究始于2014年FAIR实习项目,受导师Rob Fergus推动探索记忆机制,基于Jason Weston团队《Memory Networks》改进 [16] - 使用bAbI任务基准测试,发现RNN在无序多事实查询任务中的缺陷,促使转向注意力机制 [16][18] 关键实验 - 2014-2015年冬季实验显示:采用点积软注意力的记忆网络性能显著优于基线,尤其在语言建模任务中击败LSTM [18][19] - 创新技术包括键值分离投影、时间嵌入添加随机噪声等 [18][19] 行业影响 - 论文预见性:10年前已实现无RNN的纯注意力语言模型,其多层注意力结构和位置嵌入现被GPT等主流模型采用 [22] - 后续发展:Meta团队2024年发布《Multi-Token Attention》论文,进一步优化长上下文处理能力,解决"大海捞针"类任务 [26] 对比研究 - Transformer的改进:引入前馈层、多头注意力等,但核心思想源于早期注意力机制研究 [25] - Bahdanau等人2015年论文《Neural Machine Translation by Jointly Learning to Align and Translate》被行业认为是最早提出注意力机制的论文,但关注度仅为Transformer的1% [12]
大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起
晚点LatePost· 2025-03-02 14:10
大模型注意力机制改进 - 近期DeepSeek和Kimi分别推出NSA和MoBA架构,聚焦改进大模型核心机制"注意力机制",旨在提升长文本处理能力[4] - 注意力机制优化需解决两大瓶颈:显存开销随序列长度线性增长、计算复杂度呈平方级增长[16] - 稀疏注意力成为主流改进方向,通过仅保留关键连接提升效率,数学上Softmax机制天然支持稀疏性[16] 技术实现路径 - NSA采用硬件协同设计,在Block级别进行稀疏计算,利用Triton框架优化GPU并行效率,实现11.6倍解码加速[24][31] - MoBA创新性地在预训练阶段引入稀疏性,通过混合分块注意力保留远距离关键信息,效果超越稠密注意力[20][37] - 两种方案均采用动态稀疏机制,结合内容相关性动态选择关注区域,平衡效率与效果[38] 性能验证 - NSA在270亿参数模型训练中,损失曲线与稠密注意力趋同,推理任务表现更优[42][46] - MoBA在Llama-8B模型测试中,GSM8K数学推理得分达0.7278,优于稠密模型的0.7142[49] - 长文本专项测试显示,32K输入下末端1K词元预测损失显著降低[43] 行业应用前景 - 多模态发展将大幅增加输入长度,1小时视频相当于100万token,需开发跨模态注意力模式[55] - 长思维链生成成为RL训练关键,DeepSeek-R1显示输出长度随训练步数持续增长[26][28] - 科研场景被视为AGI重要突破口,需存储数月研究过程数据并支持复杂推理[59][62] 硬件与算法协同 - GPU显存发展滞后算力增长,B200显存仅为A100的1.2倍,迫使算法层压缩存储需求[53] - 系统层优化如FlashAttention使显存占用降低量级,算子级优化成为效率突破关键[20][35] - 未来可能结合RNN固定存储优势与注意力机制,探索存储复杂度新平衡点[53]