Workflow
注意力机制
icon
搜索文档
微软研究院路保同:用向量检索重塑模型注意力——Attention
36氪· 2025-11-17 16:02
技术核心与创新点 - 提出一种免训练、用于超长上下文推理的动态稀疏注意力方案Retrieval Attention,核心观点是每个Query实际上只需要和一小部分Key进行强交互即可,注意力本身是天然稀疏的[1][3] - 核心创新在于将向量检索机制引入注意力计算路径,通过近似最近邻检索找出对当前Query最相关的少量Key(如只找前1%),实现真正意义上的动态稀疏化[3][7] - 在系统架构上提出CPU-GPU协同的双路注意力机制:GPU负责保留少量"可预测"的局部KV缓存,而CPU以检索方式动态调用大规模KV存储,两路计算独立并行,最终融合结果[7][22] - 整个机制无需对模型进行重新训练,以可插拔模块形式接入现有Transformer,仅修改注意力层的前向逻辑,即可在不牺牲精度的前提下显著加速长上下文推理[8] 性能表现与基准测试 - 实测在RTX4090(24GB)上,8B级模型可在128K上下文下稳定生成,每token耗时约0.188秒,且与全注意力精度几乎一致[5] - 后续工作RetroInfer在A100 GPU上相比于全注意力实现了4.5倍的解码吞吐,并在1M token上下文时相比于其它GPU-CPU稀疏注意力系统实现了10.5倍的吞吐[5] - 在128K上下文长度下,Retrieval Attention的每token延迟为0.188秒,显著优于Full attention的43.927秒,且在不同上下文长度下延迟增长平缓[6] - 该方法通过极低的扫描比例(约1–3%)实现高召回率,使显存占用降至原来的约1/10,同时几乎不损失精度[7][22] 研究背景与设计思路 - 研究思路源于数据库管理系统与机器学习在底层资源有限情况下高效组织信息的共通问题,将传统数据库的"检索"逻辑迁移到模型层面[9][11] - 核心是将数据库中成熟的向量检索方法移植到语言模型推理过程中,让模型在生成时只访问"最相关"的信息,通过系统层设计让模型更高效利用已有记忆[11][14] - 将注意力机制理解为动态的信息检索系统,模型每生成一个新token都需要在已有语义空间里"查询"最相关信息,这与数据库执行查询请求的过程相似[18][19] - 研究目标是让模型的注意力机制变得更像一个"可控的数据库",使模型能主动查询、筛选、调用真正需要的信息,而非被动遍历全部上下文[20][21] 行业影响与未来方向 - 该项研究让模型具备了真正的"长时记忆"能力,使其能在极大范围内保持语义一致性,从"局部理解者"转变为"系统性推理者"[30][31] - 未来大模型推理框架不应再是"GPU-only",而应是一种充分利用CPU内存优势的混合架构,让更便宜、更可扩展的系统也能实现接近主流GPU集群的性能[28] - 长期看可能会推动重新理解"知识"的组织方式,未来可能出现具备自主知识管理能力的AI系统,能长期保留信息、持续学习,实现真正的可扩展性[32] - 动态注意力与系统优化未来可能会融合,形成一种既能主动学习、又能自我管理"记忆"的新型注意力体系[29]
HBM 之父大胆猜测:NVIDIA 可能买存储公司
半导体芯闻· 2025-11-04 17:48
行业趋势与战略合作 - NVIDIA执行长黄仁勋访韩,与三星电子和现代汽车集团会面,旨在加深在记忆体和AI超级工厂领域的合作 [2] - 行业专家指出,AI时代的主导权正从GPU转向记忆体,记忆体对于AI领域的重要性日益提升 [2] - 为解决AI推理阶段的记忆体瓶颈,国际大厂正寻求解决方案,记忆体在GPU封装内的价值贡献和技术难度越来越高 [3] 潜在并购与市场动态 - 为确保AI领域领导地位,NVIDIA可能并购记忆体公司,潜在目标包括美光或SanDisk,而非规模较大的三星或SK海力士 [2] - SanDisk股价在五天内上涨4.3%,达到199.33美元,部分原因是数据中心对NAND Flash需求增加 [2] AI推理与记忆体技术 - AI推理面临三大问题:输入内容过长导致“推不动”、回应速度“推得慢”、运算成本“推得贵” [4] - AI推理阶段采用类似人脑的“注意力机制”,并利用“KV快取”作为AI模型的短期记忆,以提升处理速度并避免重复计算 [5] - 记忆体需求分为三个层次:HBM用于储存实时记忆数据,容量为10GB至百GB级;DRAM作为短期记忆,容量为百GB至TB级;SSD用于长期记忆,容量为TB级到PB级 [4]
我MiniMax,用实习生处理数据,照样屠榜开源大模型
量子位· 2025-11-04 13:06
注意力机制选择 - 公司从Linear Attention回归到Full Attention,原因是经过测试发现Efficient Attention机制在长上下文任务中性能大幅下降,而Full Attention在稳定性和可靠性方面表现更优[11][12][13] - 团队测试了多种Efficient Attention变体包括GDN和Mamba2,但实际表现均不及Full Attention[14][15] - 当前评测系统不完善,常用榜单无法有效区分Efficient Attention与Full Attention的性能差异,但在多跳推理或长链逻辑等复杂任务中Efficient Attention劣势明显[21][22] 数据处理策略 - 公司通过雇佣实习生处理数据来证明其数据处理流程的成熟度,即使缺乏经验的人员也能达到预期效果[24][27] - 数据质量衡量标准聚焦于思维链和Response两个维度,其中思维链要求逻辑完整且表述简洁,Response部分则刻意引入格式多样性以避免对特定榜单格式的过拟合[31][32][34][35] - 公司构建了基于规则和大模型判断的数据清洗流程,专门针对典型bad case进行清理,以消除模型幻觉和指令未遵循等问题[37][38] 模型思考模式创新 - 公司提出"交错式思维链"策略,使思考过程在显式推理与工具调用之间交替进行,形成"计划→行动→反思"循环,显著提升长链任务容错率和环境扰动适应能力[45][46][47][48] - 为解决模型工具调用能力泛化不足的问题,公司设计覆盖全轨迹扰动的数据链路,模拟工具变化、系统提示语调整、环境参数异常等多种真实场景,增强模型在不确定性中的任务完成能力[50][51][52] 技术发展路径 - 公司技术决策以工程理性为导向,优先考虑模型在真实任务中的稳定性与可用性,而非盲目追求算力节省,这一思路在MoE架构探索阶段已得到验证[53][54][55] - 模型定位强调实用性,旨在为开发者提供落地工具,注重解释逻辑和系统性迭代,而非参数堆叠的"炫技模型"[56][57]
20分钟读懂AI史上最重要的一篇论文——《Attention Is All You Need》
虎嗅· 2025-10-22 21:05
行业技术发展 - Transformer架构于2017年通过论文《Attention Is All You Need》首次提出,彻底改变了人工智能的技术路径 [1] - 该架构推动了全球AI领域的“军备竞赛”,并催生了包括OpenAI在内的行业巨头迅速崛起 [1] 核心技术解析 - Transformer的核心思想源自注意力机制,涉及Q/K/V、多头注意力、位置编码以及Decoder的mask机制等关键概念 [1] - 该技术实现了从逐字生成文本的功能,其原理可通过基础数学概念理解 [1] 行业人才动态 - 提出Transformer架构的8位论文作者均已离开Google并投身创业 [1] - 这些创始人在创业过程中创造了惊人的财富传奇 [1]
人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能
中原证券· 2025-10-16 19:46
报告行业投资评级 - 行业投资评级:强于大市(维持)[1] 报告核心观点 - DeepSeek的稀疏注意力机制(特别是NSA和DSA)通过提升计算效率和拓展模型上下文,为AI产业释放了更大的发展潜能,将成为推动模型能力不断突破的重要支撑[8][37] 注意力机制与大模型发展的关系 - 注意力机制模仿人类选择性关注关键信息的能力,解决了长序列遗忘问题[11] - 稀疏注意力将计算复杂度从O(L²)降至亚平方级(如O(L*log L)、O(L*k)),突破内存与算力瓶颈[11] - 经过多代技术迭代,大模型上下文已扩充到128K甚至是1M的长度水平[11] DeepSeek在注意力机制方面的技术改进 - MLA:DeepSeek在V2中引入多头潜在注意力,将注意力分数的显存占用减少约90%,成为R1成本显著低于头部模型的重要因素[12][16] - NSA:2025年2月提出的原生稀疏注意力,通过算法和硬件协同优化,将长文本处理速度提升11倍,可实现与全注意力模型相当或更优的性能[8][18] - DSA:2025年9月V3.2-Exp引入的稀疏注意力机制,带来训练推理效率大幅提升,API价格大幅降价超50%[8][23] DSA和NSA的技术特点对比 - NSA参与整个预训练过程,DSA基于V3.1-Terminus基座继续预训练而来,可低成本进行稀疏注意力探索[27] - DSA通过TileLang实现,NSA选用OpenAI开源的Triton,TileLang可实现更多深度优化,更有利于国产芯片生态适配[27] - DSA通过"闪电索引器"逐词判断找出重要词汇(2048个)进行细粒度稀疏计算,NSA将文本分成"块"分三层挑重点[30] 稀疏注意力对AI产业的影响 - 稀疏注意力带来的计算效率提升和模型上下文拓展,将为后训练释放更大的发展潜能[37] - V3.2-Exp的API调用价格显著降低:输入缓存命中时价格为R1的20%(0.2元/百万Tokens),输入缓存未命中时为R1的50%(2元/百万Tokens),输出价格为R1的19%(3元/百万Tokens)[23] - 成本的下降意味着模型具有更好的性价比和可推广性,将促进应用端实现更多功能落地[23]
老牌Transformer杀手在ICLR悄然更新:Mamba-3三大改进趋近设计完全体
机器之心· 2025-10-14 16:24
行业技术背景 - Transformer架构是当前AI模型的主流架构,但其挑战者不断涌现 [1] - 基于状态空间序列模型(SSM)架构的Mamba是Transformer最具影响力的挑战者之一,于2023年在社区爆火 [2] - Mamba在语言建模方面可媲美甚至击败Transformer,并能随上下文长度增加实现线性扩展,在处理百万token长度序列时实现5倍的推理吞吐量提升 [3] Mamba系列模型发展历程 - Mamba-1在2024年的ICLR会议上被拒稿,但在半年后发布的Mamba-2被顶会ICML 2024接收 [4] - Mamba-2的核心改进是对Mamba-1的选择性SSM进行优化,速度提高了2-8倍 [4] - Mamba-3目前已提交至ICLR 2026,正处于盲审环节 [6] Mamba-3核心技术改进 - 采用梯形离散化方法对连续时间动力系统进行离散化,使状态更新同时结合区间起点和终点的信息 [10][11] - 通过复数化状态空间模型实现更具表达力的状态更新机制,该机制等价于一种数据依赖的旋转位置编码 [13] - 引入多输入多输出状态空间模型(MIMO SSM),从单输入单输出系统泛化到多输入多输出系统,极大提升GPU并行吞吐效率 [14][15] Mamba-3性能表现 - Mamba-3-1.5B模型在所有下游任务上的平均准确率优于同等规模的Transformer、Mamba-2和Gated DeltaNet模型 [19] - 在440M参数规模下,Mamba-3-MIMO版本的FW-Edu困惑度为12.72,优于Mamba-2的13.00和Mamba-3标准版的12.87 [21] - 在bf16精度、d_state=128配置下,Mamba-3的SISO和MIMO版本的延迟分别为0.152毫秒和0.185毫秒,均低于Mamba-2的0.203毫秒 [27] 应用场景与潜力 - Mamba-3的高效长序列处理能力使其非常适合长文档理解、科学时间序列分析和基因建模等Transformer表现不佳的领域 [30] - 其线性时间推理和稳定延迟特性使其适合实时交互场景,如聊天助手、机器翻译和语音接口 [31] - 友好的硬件特性使Mamba-3有潜力在本地设备或边缘侧运行,实现不依赖云端的大模型推理 [31]
从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”
AI科技大本营· 2025-09-23 10:11
Transformer架构的诞生与影响 - 2017年论文《Attention Is All You Need》提出彻底抛弃循环神经网络,仅使用注意力机制处理语言,其提出的Transformer架构重塑了人工智能版图[2] - 该论文在Google Scholar上的引用次数高达197,159次,成为大模型理论的奠基性文章,开启了人工智能新纪元[2][17] - Transformer架构以其无与伦比的并行计算能力和对长距离依赖的出色捕捉,迅速成为自然语言处理领域的全新范式,并辐射到计算机视觉、语音识别等AI子领域[17] 核心人物Lukasz Kaiser的学术背景 - Lukasz Kaiser拥有波兰弗罗茨瓦夫大学计算机科学与数学双硕士学位,并在德国亚琛工业大学获得博士学位,专攻"自动结构上的逻辑与博弈"这一艰深领域[7] - 2009年其博士论文荣获E.W. Beth dissertation prize,这是全球逻辑、语言和信息领域的最高学术荣誉之一,证明其在纯粹理论科学领域达到世界顶尖水平[8] - 博士毕业后受聘于巴黎狄德罗大学LIAFA实验室,成为法国国家科学研究中心终身研究员,拥有稳定的学术职位和完全的研究自由[9] 从学术界到工业界的转型 - 2013年Kaiser辞去法国终身研究员职位加入谷歌大脑,这一决定源于对"重复"的厌倦和对"变革"的极度渴望,从"证明"转向"构建"的冲动[10][11] - 当时自然语言处理领域被循环神经网络统治,但RNN存在长距离依赖问题和串行处理缺陷,与GPU和TPU的并行架构不匹配[12][14] - Kaiser团队最初将注意力机制作为RNN的增强补丁,但最终提出完全基于注意力的新模型构想,彻底推翻了RNN的统治地位[14][15] Transformer八子的分化与Kaiser的选择 - Transformer八位作者中七位已踏上创业之路,成为AI产业浪潮中的商业巨擘,如Aidan Gomez创立Cohere、Noam Shazeer创立Character.ai等[4][24] - Lukasz Kaiser是八子中唯一未创业的科学家,于2021年离开工作八年的谷歌,加入以AGI为最终使命的OpenAI,继续坚守技术研究最前线[4][24][25] - 在OpenAI期间,Kaiser深度参与并主导了GPT-4、GPT-5以及代号为"o1"和"o3"的推理模型等核心研发工作[4][27] 通用人工智能的探索历程 - 2017年Kaiser参与发表论文《One Model To Learn Them All》,提出MultiModel单一模型同时处理八个不同任务,是AGI追求的第一次公开实践[20][22] - 该研究证明统一深度学习架构有潜力联合学习跨领域知识,尽管单项任务表现未超越专业模型,但为通用智能探索开辟了新方向[22] - Kaiser认为AI下一阶段关键在于教会模型"思考",通过生成更多中间步骤进行深度推理,而不仅仅是直接输出答案[29] 行业技术发展趋势 - AI发展经历了从2014年"证明可行性"到2017年"架构创新",再到2019年"自监督预训练"以及2021年"规模定律",最终到2023年"数据质量与RLHF"的进化路径[27] - 未来计算力将从大规模预训练转向在少量高质量数据上进行海量推理计算,预示着AI即将迎来又一次范式转移[29] - 多模态融合、模型规模持续提升以及AI能力通过API和云服务形式普及,已成为行业明确的发展方向[31]
跨学科注意力机制访谈系列开篇
36氪· 2025-09-05 11:48
绿洲资本AI投资布局 - 2023年上半年完成AI和具身智能方向核心投资组合构建 近二十个项目包括MiniMax、Vast、Boson、逐际动力、千寻智能、极壳科技等[1] - 投资逻辑基于对AI创新能级的判断 认为这是超越工业革命级别的创新 时间更短 能级更大[1] 技术认知演进路径 - 首次深度访谈形成核心认知:大模型本质是未来基础设施 智能将被标准化管理和分发 类似电力系统[2] - 第二次访谈聚焦Agent领域 提出Agent不是割裂工具 而是由大模型驱动的需求与智能一体化服务[4] - 2023年年中Agent尚未成为主流 缺乏统一理论认知 绿洲率先布局该领域[3] 注意力机制技术突破 - MiniMax发布Flash Attention技术 在Transformer架构内部优化注意力模块 显著提升训练与推理算力效率[7] - Attention机制已突破模型结构优化 渗透至脑科学、认知科学、心理学等多学科领域[7] - AI学习注意力的过程正在帮助人类重新理解自身感知与认知机制[7] AI技术发展双重路径 - 全球学者在Transformer结构上进行更大规模训练[8] - 认知结构和算法框架层面持续创新 推动AI掌握注意力机制[8] - 技术探索从教会机器理解注意力 转向构建可扩展的新范式[6] 人类注意力系统挑战 - 人类平均每日拿起手机超过500次 注意力持续时间压缩至不足100秒[11] - 从长篇电影到短视频 从深度阅读到信息切片 人类注意力窗口持续衰减[11] - AI将信息获取与响应速度提升至前所未有的水平 可能进一步削弱人类注意力[11] 未来研究方向 - 探索人类与AI共同构成系统中注意力的本质含义[10] - 研究当Agent成为社会主要生产者时 人类注意力机制面临的挑战[10] - 关注注意力管理作为人类自我管理的核心要素[11]
谷歌大脑之父首次坦白,茶水间闲聊引爆万亿帝国,AI自我突破触及门槛
36氪· 2025-08-25 11:35
个人成长与早期经历 - 童年时期频繁搬家,12年内更换11所学校,培养了适应能力 [7] - 9岁时接触早期Intel 8080计算机套件,通过BASIC语言书籍自学编程 [9][11][13] - 13岁时打印400页游戏源码学习并发编程,完成首个复杂软件移植 [14] - 本科期间接触遗传编程和神经网络,1990年尝试用32处理器并行训练神经网络 [15][17] 神经网络与工程突破 - 90年代提出数据并行/模型并行概念,早于相关术语普及 [8] - 2011年与吴恩达在谷歌茶水间交流后,启动Google Brain项目,目标是用GPU训练超大规模神经网络 [25][26] - 使用2000台计算机(16000核心)训练分布式神经网络,在视觉任务中实现无监督学习,生成"平均猫"图像 [26][27][30] - 无监督模型在Imagenet数据集上使错误率降低60%,监督语音模型在800台机器训练5天后错误率降低30% [30] - 推动定制机器学习硬件TPU开发,支持神经网络规模化应用 [30] 技术演进与核心贡献 - 推动词向量(word2vec)技术,用高维向量表示词汇语义 [32] - 序列到序列模型与LSTM网络应用于机器翻译,提升序列处理能力 [34][36] - 注意力机制与Transformer架构突破,实现n平方复杂度下的高性能序列处理 [38][40] - 谷歌大脑框架被数百个团队采用,支持搜索、广告等核心业务 [26] AI发展现状与未来方向 - LLM在非物理任务上超越普通人表现,但在专业领域尚未达到人类专家水平 [47] - 可解释性研究通过可视化或直接询问模型决策机制推进 [43][44] - 未来突破依赖自动化闭环:自动生成想法、测试、反馈及大规模解决方案搜索 [49] - 强化学习与大规模计算加速科学、工程领域发展,预计影响未来5-20年进程 [49] - 未来5年聚焦开发更强大、成本效益更高的模型,服务数十亿用户 [50] 行业影响与里程碑 - Google Brain项目促成神经网络在谷歌产品中的大规模部署 [26][30] - 纽约时报报道"猫图像"突破,成为AI认知里程碑事件 [27] - TensorFlow与TPU硬件推动行业机器学习基础设施标准化 [1][30]
从零开始!自动驾驶端到端与VLA学习路线图~
自动驾驶之心· 2025-08-25 07:32
端到端与VLA自动驾驶技术发展 - 端到端自动驾驶技术涉及多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等多个领域技术栈 [32] - 技术发展从模块化方法演进至端到端范式 包括一段式、二段式和VLA范式 [36] - VLA(视觉语言动作)成为当前端到端自动驾驶的皇冠技术 上限高且业内招聘需求旺盛 [46] Transformer与大语言模型基础 - Transformer架构核心是注意力机制和多头注意力 通过基础模块堆叠形成Encoder和Decoder [11][13] - Token化采用BPE、Word-Piece等方法 通过合并高频字符实现压缩 [9][13] - 位置编码使用正弦和余弦函数 使模型记住词序且位置偏移量与当前位置呈线性关系 [9][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的广为认知的技术 为多模态大模型奠定基础 [18] - 视觉Transformer扩展了Transformer的基本概念 成为多模态模型重要组成部分 [43] - LLAVA等模型进一步推进了视觉语言模型的发展 [43] 课程内容体系设计 - 第一章介绍端到端算法发展历史、范式优缺点及学术界工业界动态 [36] - 第二章重点讲解大语言模型、BEV感知、扩散模型、强化学习等背景知识 [37][43] - 第三章分析二段式端到端 涵盖经典算法PLUTO、CVPR'25的CarPlanner和最新Plan-R1 [38] - 第四章深入一段式端到端子领域:基于感知的UniAD、基于世界模型的Drive-OccWorld、基于扩散模型的DiffusionDrive及基于VLA的ORION [39][41][44][46] - 第五章设置RLHF微调大作业 实现从理论到实践的完整闭环 [48] 技术人才市场需求 - VLA/VLM大模型算法专家岗位薪资达40-70K-15薪 要求3-5年经验硕士学历 [29] - VLA/VLM/LLM算法工程师薪资40-70K-15薪 不限经验但要求深度学习机器学习背景 [29] - VIA模型量化部署工程师薪资40-60K-15薪 要求1-3年经验及模型加速技能 [29] 课程特色与优势 - 采用Just-in-Time Learning理念 通过通俗语言和案例快速掌握核心技术栈 [33] - 帮助学员梳理研究发展脉络 形成自己的研究体系和工作经验 [34] - 配备实战环节包括Diffusion Planner和ORION开源推理评测模块 [44][46] - 学员结课后可达1年左右端到端自动驾驶算法工程师水平 [53] 讲师资质与课程安排 - 讲师Jason为C9本科+QS50 PHD 发表CCF-A论文2篇 现任TOP主机厂算法专家 [24][49] - 课程8月15日开课 预计三个月结课 采用离线视频教学+vip群答疑模式 [52] - 章节解锁时间安排:第一章8月01日、第二章8月15日、第三章8月30日、第四章9月15日、第五章10月30日 [53]