注意力机制

搜索文档
重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5%
机器之心· 2025-07-22 16:59
核心观点 - GTA(Grouped-head latent Attention)是一种高效的大模型框架,通过共享注意力矩阵和压缩潜在值表示,显著提升模型性能与计算效率 [1] - GTA将计算量削减62.5%,KV缓存缩减70%,prefill和decode速度提升2倍,适用于长序列任务和边缘设备部署 [1] - 该技术由中国科学院自动化研究所、伦敦大学学院及香港科技大学(广州)联合研发,为大模型优化部署提供创新解决方案 [1] 大型语言模型效率困局 - Transformer架构虽推动NLP发展,但模型参数量激增导致传统多头注意力机制(MHA)弊端凸显 [3] - MHA存在计算冗余问题:每个注意力头独立计算查询/键/值向量,导致FLOPs呈平方级增长 [3] - 内存瓶颈显著:KV缓存规模随序列长度和注意力头数量快速膨胀,限制边缘设备部署能力 [3] - 推理延迟问题:高昂计算/内存需求导致实时应用体验下降,现有优化方案难以平衡性能与资源消耗 [4] GTA核心技术突破 分组共享注意力矩阵机制 - 将注意力头分组并共享统一注意力矩阵,减少重复计算(如16头MHA改为4组共享) [8] - 实验证明该设计可显著削减FLOPs,实现超长序列任务的推理加速 [10] 压缩潜在值表示技术 - 将所有注意力头的值向量压缩为低维潜在表示,配合WaLU非线性解码器动态生成完整向量 [12] - 在保留表达能力的同时,KV缓存规模缩减70%,突破边缘设备部署障碍 [14] 实验验证结果 160M参数模型表现 - 在2048/4096 token序列下,GTA2配置实现比MHA/GQA/MLA更低的评估损失(2.690 vs 2.696)和更优的Wikitext PPL(22.41 vs 23.03) [17] - KV缓存大小仅为MHA的12.5%(192维度 vs 1536维度) [17] 500M参数模型表现 - 2048 token序列中GTA4实现2.478评估损失,优于MHA的2.484,KV缓存为MHA的12.5%(320 vs 2560维度) [19] - 4096 token长序列任务中保持与MHA相当的评估损失(2.592),Wikitext PPL更优(16.96 vs 19.87) [19] 1B参数模型扩展性 - GTA-1B在50,000训练步中稳定收敛,KV缓存仅为GQA-1B的30% [20] - 微调后平均准确率达42.17,优于GQA-1B-SFT的40.64,自注意力计算成本低至37.5% [22] 效率评估 理论效率分析 - KV缓存尺寸和注意力计算量均实现数量级缩减,显著提升推理速度 [24] 实际硬件测试 - 在NVIDIA H100/A800、RTX 3060、Apple M2等平台测试中,GTA-1B预填充/解码时间全面优于GQA-1B [25][27] - 处理2k token长序列时性能优势更显著,缓存卸载场景下I/O效率提升明显 [29][30][31] 技术局限与未来方向 - 非线性解码器可能引入微小近似误差,需优化架构设计减少信息损失 [33] - 当前验证集中于NLP任务,需探索计算机视觉/多模态领域的适用性 [33] - 计划扩展至超大规模模型验证可扩展性,推动更广泛应用 [33]
Mamba一作预告新架构!长文论述Transformer≠最终解法
量子位· 2025-07-09 12:57
序列模型架构比较 - Mamba作为状态空间模型(SSMs)代表,在语言任务上3B规模超越同等Transformer,匹敌两倍规模Transformer [2] - SSMs工作方式类似人类大脑,通过压缩历史信息形成固定大小隐藏状态,适合处理长序列且计算成本呈线性增长 [15][16] - Transformer通过KV缓存完整记录所有token信息,具备精确记忆能力但计算成本呈二次复杂度 [23][25] 模型性能优势 - SSMs在语言/音频/DNA序列模态实现SOTA,计算效率高且内存需求固定 [16] - Mamba通过三大关键改进提升性能:扩大状态维度至RNN的N倍/引入选择性记忆机制/优化训练效率 [17][18][19][20] - Transformer依赖tokenization预处理,在多语言多模态场景存在局限性且违背端到端学习原则 [28][29][30] 架构融合趋势 - 混合架构中SSM层与注意力层最佳比例介于3:1至10:1之间 [37] - 注意力机制二次复杂度并非Transformer主要缺陷,新架构将保持兼容性 [5][7] - 未来方向是结合SSMs的在线处理能力与Transformer的精确检索优势,直接处理原始数据 [36][40] 行业技术发展 - Mamba作者预告几天后将发布架构领域重大进展 [3] - 当前共识可能被推翻,Transformer被视为阶段性最优解而非最终方案 [8] - 架构设计核心指标是FLOPs利用率,需快速转化为模型能力 [39]
心智×算法 如何“共舞”(瞰前沿·人工智能如何改变科研范式)
人民日报· 2025-06-14 05:43
人工智能与心理学融合 - 全球AI for Science论文发表年均增长率达27.2%(2019-2023年)[1] - 心理学原理如条件反射和强化学习启发了AI技术(如AlphaGo的强化学习机制)[2] - 认知心理学的注意力机制被应用于AI模型(如ChatGPT的注意力权重分配)[2] 技术应用与效率提升 - 通过社交媒体和可穿戴设备捕获10亿级行为数据流,心理学研究进入"数据海洋"时代[2] - AI自动评估人格的相关系数达0.5,显著高于传统问卷效率[3] - 情感计算技术通过声波震颤识别孤独指数,深度学习框架分析口语特征以筛查抑郁[3] 研究范式革新 - 大型语言模型开发自助心理支持工具,采用"零样本学习"和"思维链提示"策略提升情感互动能力[5] - AI生成大规模危机文本训练数据,突破敏感数据获取瓶颈,模型识别微弱求助信号的能力增强[5] - 谷歌DeepMind通过"心智进化"实验模拟自然选择,AI推理任务表现超越传统算法[6] 未来发展方向 - 心理学启发的决策机制将提升AI在开放环境中的判断力,多模态整合能力适应复杂情境[7] - 具身智能仿真平台(如"格物")采用进化式学习算法,机器人训练周期从数周压缩至分钟级[6] - AI情感慰藉可能改善人类心理状态,需重新定义情感边界并制定伦理规范[8]
ICML 2025 | 全局池化+局部保留,CCA-Attention为LLM长文本建模带来突破性进展
机器之心· 2025-06-08 16:21
核心观点 - 琶洲实验室与华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),在128K超长序列任务中推理速度达标准自注意力机制的7.9倍,键值缓存显存占用减少93% [1][3] - CCA-Attention通过全局池化注意力与局部保留注意力的协同设计,在降低计算量的同时保持长距离依赖建模能力,且无需修改模型结构或引入额外参数 [7][9] - 该方法在LLaMA2-7B模型上的实验显示,64K上下文长度下推理速度提升5.7倍,128K任务中KV Cache显存减少93% [26] 技术原理 - **全局感知池化模块**:将输入序列分组后提取核心token,将注意力计算维度从n降至m,实现线性计算复杂度 [12][14] - **局部保留模块**:确保每个token关注前w个原始token,捕捉细粒度局部上下文,与全局模块互补 [15] - **可微融合策略**:组合全局与局部模块的键值矩阵,形成统一注意力输出,保持完整可达性 [16][17] 性能优势 - 在LLaMA2-7B-80K模型上,LongBench-E基准测试平均得分22.24,优于StreamingLLM(14.94)和LM-Infinite(21.20) [22] - 多文档问答任务中,128K上下文长度下EM得分32.0,超越标准自注意力(30.3),推理延迟仅15.89秒(标准方法124.85秒) [24] - 基于Triton的底层加速实现端到端优化,预填充与解码阶段效率同步提升 [18] 行业对比 - 相比DeepSeek NSA需引入压缩模块和重新训练,CCA-Attention可直接替换现有注意力模块 [9] - 对比Kimi MoBA的块丢弃机制,CCA-Attention通过动态聚合关键上下文保留全局建模能力 [9] - 计算效率显著优于MInference等现有方法,128K任务显存占用仅为标准自注意力的7% [26] 应用前景 - 适用于LLaMA2等主流大模型,仅需少量微调即可集成,具备即插即用特性 [13] - 在代码生成、长文档问答等需超长上下文场景中表现突出,128K序列处理速度提升近8倍 [23][26] - 研究成果已被ICML 2025接收,代码与论文已开源 [8]
张津剑:投资中的频率与频谱 | 42章经
42章经· 2025-06-08 16:11
注意力机制与人类信息处理 - Transformer架构首次赋予机器注意力机制 推动AI技术飞跃 并促使人类重新审视自身信息感知方式 [1] - 人类感知-处理-行动系统存在巨大鸿沟:视网膜每秒接收10^9比特信息 大脑处理仅10^6比特 输出带宽仅10^1比特 [6][7] - 注意力机制作为主动过滤器 帮助人类在信息洪流中聚焦关键信号 但当前普遍面临机制崩溃导致独立判断能力丧失 [8][10] 社会分化与注意力失控 - 注意力失控导致世界分化加剧 体现为地缘政治冲突 贫富差距扩大及微观人际关系割裂 [1][3] - "拉尔森效应"普遍存在:信息输入输出端口过近导致信号循环啸叫 引发赛道投资极端化(过热或过冷) [12][13][14] - 创始人案例显示 专注冷门领域7年最终获得全球仅4张的国家牌照 验证注意力博弈价值 [19][20] AI与人类能力对比 - AI通过注意力机制实现能力飞跃 未来将具备全频谱感知能力(包括X光 伽马射线等人类不可感知频段) [34][35] - 人类局限性体现为:感知频谱仅占已知电磁波频谱1/10^9 依赖核磁共振等工具间接获取信息 [33] - 未来AI系统将是"传感器+Agent+具身智能"三位一体 需以AI为中心重构工作流而非简单赋能人类 [35][37][38] 人类在AI时代的核心价值 - 创造需求成为关键价值 需明确自身要解决的问题 而非依赖市场反馈贴标签 [40][42] - 审美作为超越多模态的处理结果 是人类独有的核心能力 能预判技术路径或感知潜在风险 [41][42][43] - 心力取代智力成为核心竞争力 优秀创始人特质体现为逆境坚持与克制 [44] 创业与投资启示 - 冷门领域存在未被充分估值的机会 需通过专注发现根本性变化(如2023年具身智能案例) [15][16][17] - 传感器技术将迎来爆发 创业者应探索人类未利用的数据频段(如α波 伽马射线) [34][35] - 区块链或成为Agent互联网的基础设施 当前多数项目仍错误围绕人类需求设计 [35][36]
SSM+扩散模型,竟造出一种全新的「视频世界模型」
机器之心· 2025-05-31 12:00
研究背景与核心创新 - 研究结合状态空间模型(SSM)、扩散模型和世界模型等前沿技术,开发出新型视频世界模型,实现长期记忆与空间一致性的平衡 [1][9] - 传统视频扩散模型受限于注意力机制,难以维持长期一致性,导致环境模拟失真 [3][4][6] - 创新点在于采用Mamba的逐块扫描方案,配合局部注意力机制,显著提升长期记忆能力同时保持计算效率 [9][15][16] 技术架构设计 - 采用空间主/时间次的token排序方式,确保因果约束并防止未来信息泄露 [11] - 提出逐块重新排序方法:将token序列分解为(b_h,b_w,T)块,通过调整块大小平衡时间相关性与空间一致性 [13][15] - 引入帧局部注意力模块,采用窗口大小为k的因果注意力机制增强短期一致性 [16] - 动作条件处理:通过MLP处理连续动作值,直接学习离散动作嵌入实现交互控制 [17] 训练与推理优化 - 改进训练方案:保持随机长度前缀完全无噪声,强制模型学习长期依赖性 [18] - 推理阶段仅需维护前k帧KV缓存和块SSM状态,实现恒定内存占用和生成速度 [21] - 训练成本随上下文长度线性增长,显著优于传统二次复杂度模型 [39] 实验性能表现 Memory Maze数据集 - 检索任务(400帧):SSIM达0.898,显著优于Mamba2(0.747)和因果Transformer(0.829) [25] - 推理任务(224帧):SSIM达0.855,优于所有次二次模型 [26] - 长期记忆能力与全上下文因果Transformer(SSIM 0.914)接近 [25][27] TECO Minecraft数据集 - 推理任务(50帧):SSIM达0.454,优于DFoT(0.450)和25帧上下文因果Transformer(0.417) [33] - 能准确预测已探索区域,而有限上下文模型失效 [36] 效率优势 - 训练时间线性扩展,推理保持恒定内存和计算成本 [39] - 单次前向传递速度显著快于全注意力机制 [39]
ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键
机器之心· 2025-05-06 12:11
大型语言模型自注意力机制研究 核心发现 - 自注意力模块中查询(Q)和键(K)表示存在高度集中的极大值,而值(V)表示无此现象,该现象在使用旋转位置编码(RoPE)的模型中普遍存在[1][3] - 极大值分布具有跨层和跨头的规律性,与传统认知中注意力头独立性假设形成鲜明对比[3] - 该现象仅见于采用RoPE的主流模型(LLaMA/Qwen/Gemma),未使用RoPE的模型(GPT-2/OPT)不存在此模式[4] 机制影响 - 破坏QK中的极大值导致上下文理解任务性能崩溃: - 数学推理(GSM8K)准确率从81.3%骤降至15.1%(Gemma2-9B)[5] - 密钥检索任务(Passkey Retrieval)准确率从100%降至0%[5][11] - IMDB情感分析从94%+跌至个位数[11] - 参数知识任务受影响较小:城市类任务保持76-88%准确率,名人类任务维持70%+[10][13] 技术启示 - 量化技术需针对性处理极大值:AWQ和SmoothQuant方法能有效保持上下文理解能力,普通量化导致GMS8K性能显著下降[7] - RoPE机制是极大值现象的根源,其仅作用于QK而不影响V的特性解释了现象特异性[8] - 模型设计应重点考虑位置编码机制对上下文理解的影响,优化方向可针对极大值分布进行调整[14][16] 未来方向 - 探索通过调控极大值分布提升模型上下文理解能力的可行性[16] - 开发专用于保护极大值的量化技术,平衡模型压缩与性能保留[16] - 研究不同模型架构中该现象的普适性,拓展至多模态等新领域[16]
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
晚点LatePost· 2025-02-20 22:21
注意力机制优化进展 - Kimi和DeepSeek同日发布注意力机制改进成果MoBA和NSA,均针对Transformer核心组件"注意力机制"进行创新[2] - 标准全注意力机制存在计算复杂度随文本长度平方级增长的问题,成为制约长上下文能力的关键瓶颈[4] - 行业出现两大优化方向:稀疏注意力机制(如NSA/MoBA/InfLLM)和线性注意力机制(如MiniMax-01),前者侧重稳健优化,后者尝试根本性解决计算爆炸问题[5] MoBA技术演进 - 项目始于2023年5月,初始目标为支持16K长度预训练,后升级至128K需求,经历v0.5到v2三次架构迭代[6][12][16] - 关键技术突破包括:采用Online Softmax实现与全注意力机制的可对照调试、解决注意力汇聚点问题、最终形成极简单层稀疏注意力结构[13][16] - 在1M长度测试中达到与全注意力机制持平的性能指标,已部署至Kimi生产环境[20] 行业竞争格局 - 中国头部AI公司密集发布注意力机制创新:MiniMax-01采用线性注意力,面壁智能InfLLM被NSA论文引用[5] - 微软亚研院专家指出稀疏注意力与线性注意力的本质差异:前者保留复杂依赖关系捕捉能力,后者可能牺牲部分长程关联性[5] - 清华大学团队证实NSA和MoBA均采用动态注意力选择机制,相比静态方法显著提升模型性能[5] 工程实现细节 - MoBA开源代码已在GitHub发布,包含完整工程实现与技术论文,实际经过1年多线上验证[6][25] - 解码阶段对MHA效果最佳(IO优化达理论最大值),但对GQA/MQA效果递减[22] - Triton实现版本曾获得10%+性能提升,但因维护成本过高暂未持续优化[24] 研发方法论 - 采用"饱和救援"模式推进技术攻坚,整合跨团队资源进行多轮消融实验[15][19] - 通过"思过崖"机制实现快速试错与迭代,三次关键架构调整分别解决参数膨胀、训练不稳定和SFT效率问题[8][13][19] - 最终方案保留数学严谨性(支持全注意力模式对照)与工程实用性(单机/分布式兼容)的双重优势[16][20]