线性注意力机制
搜索文档
海通国际证券电子日报-20251103
海通国际证券· 2025-11-03 19:04
行业投资评级 - 报告未明确给出具体的行业投资评级 [1] 核心观点 - 量子计算领域竞争加剧,NVIDIA与AMD分别通过构建开放架构和突破关键技术推动产业发展 [1][2] - AI基础设施竞争从单点技术突破转向生态系统构建,NVIDIA投资诺基亚以整合算力与网络资源 [3] - 消费电子与汽车行业智能化趋势显著,iPhone 17销售超预期,中国车厂及供应链在AI机器人和低成本激光雷达领域快速推进 [4][7][8] - 人工智能模型与应用持续创新,涵盖代码安全、架构优化、创意工具及脑机接口等多个前沿方向 [9][10][11][12] 量子计算与AI基础设施 - NVIDIA联合约17家量子处理器技术公司推出开放式互连架构NVQLink,旨在连接量子系统与经典CPU/GPU系统 [1][2][15][16] - AMD与IBM合作成功在FPGA芯片上运行量子纠错,标志着量子计算实用化的重要进展 [2][16] - NVIDIA对诺基亚进行战略投资,凸显在AI竞赛中网络与算力整合的重要性,竞争格局转向“生态战” [3][17][18] 消费电子与智能汽车 - Apple iPhone 17在2025财年第四季开售两周即贡献强劲营收,标准版供不应求,公司对2026财年第一季度中国市场需求表示乐观 [4][5][19][20] - 中国主要车厂(比亚迪、小鹏、蔚来、小米)正加速部署AI机器人于生产线,分为“未来战士”、“数字哨兵”和“后勤补给兵”三类,以提升生产速度与规模化效率 [7][21][22] - 中国激光雷达制造商禾赛科技推出售价仅200美元的新产品ATX,较过去超过1万美元的成本大幅下降,目前全球汽车激光雷达市占率约33%,已被24家车厂采用 [8][23][24][25] 人工智能模型与应用 - OpenAI发布由GPT-5驱动的白帽Agent Aardvark,能自动发现并修复代码库中92%的安全漏洞 [9][26] - 线性注意力机制受到关注,但MiniMax新模型M2因精度问题回归传统架构,Kimi Linear采用混合注意力策略实现75%的KV缓存缩减和最高6倍解码吞吐量提升 [10][28] - 估值420亿美元的Canva推出自训练基础模型,年化收入约30亿美元,月活超2.4亿,市场预期其2026年IPO [11][29] - Neuralink已有12名用户累计使用超2000天,公司启动“思维转文字”临床试验,目标到2031年实现年植入2万人,年营收突破10亿美元 [11][30][33] - OpenAI完成重组,非营利基金会持有价值约1300亿美元股份,与微软签订为期7年的AGI模型API独家部署协议及2500亿美元的Azure预购合同 [13][36]
腾讯研究院AI速递 20251103
腾讯研究院· 2025-11-03 00:06
AI驱动的代码安全与漏洞修复 - OpenAI发布由GPT-5驱动的白帽智能体Aardvark 能自动发现并修复代码库安全漏洞 已识别92%的已知与人工注入漏洞 [1] - Aardvark工作流程运用LLM推理能力 包括威胁建模、提交扫描、沙盒验证和Codex修复 不依赖传统程序分析技术 [1] - 谷歌、Anthropic、微软等科技巨头在10月密集发布类似白帽智能体 以应对AI时代漏洞数量激增和攻击手段智能化的挑战 [1] 中国开源AI模型的商业化应用 - AI编程应用Cursor和Windsurf新发布的Composer-1和SWE-1.5模型被发现可能基于中国模型 [2] - Cursor Composer-1使用与DeepSeek相同的分词器 Windsurf被证实基于智谱开发的GLM模型 [2] - 中国开源模型在性能榜单占据TOP5甚至TOP10 物美价廉成为初创公司的理性选择 [2] 大模型注意力架构的技术演进 - 线性注意力机制正在回归 MiniMax-M1、Qwen3-Next、DeepSeek V3.2等国产模型引领采用线性或亚二次方注意力变体 [3] - MiniMax新模型M2放弃线性注意力回归常规注意力 团队解释线性注意力在推理和多轮对话任务中存在明显精度问题 [3] - Kimi Linear提出混合注意力策略 每三个线性注意力块搭配一个全注意力块 实现75%KV缓存缩减和最高6倍解码吞吐量提升 [3] Canva的AI战略与市场定位 - 估值420亿美元的Canva推出自训练基础模型 能输出带可编辑图层的完整设计文件 并将收购的Affinity永久免费开放 [4] - 核心功能Ask @Canva深度嵌入设计界面每个角落 用户可用自然语言修改任何元素 AI还能对整个设计提出改进建议 [4] - Canva年化收入约30亿美元且持续盈利 月活超2.4亿 市场预期将在2026年正式IPO 直接对标Adobe的70%市场份额 [4] Neuralink的脑机接口商业化进展 - 马斯克表示首位Neuralink接受者Noland Arbaugh可能首个接受升级或植入双芯片 预言Neuralink接受者最终能在游戏中击败所有人 [5] - Neuralink已有12名用户累计使用超2000天总活跃时间超1.5万小时 首批3位试验者研究成果已提交《新英格兰医学杂志》 [5] - 公司启动新临床试验"思维转文字" 目标到2031年实现每年植入2万人 年营收突破10亿美元 2030年开始应用于健康个体 [5] 大模型在医疗健康领域的应用潜力 - 斯坦福大学等研究团队测试15种主流模型对言语障碍识别 目前表现最佳模型准确率仅55%未达FDA要求的80-85%临床标准 [6] - 研究发现模型存在性别、年龄和语言偏见 对男性语音识别优于女性 英语使用者优于其他语言 年长儿童优于幼龄儿童 [6] - 微调技术带来突破口 利用小型儿童语音数据集微调后模型性能准确率提升10% 展现多模态语言模型在言语病理学应用潜力 [6] 企业级AI工作流重构与组织变革 - 估值123亿美元的Brex将内部AI平台当产品打造 基于Retool构建并复用外部产品AI能力 由25人系统工程团队维护运营 [7] - COO重构运营团队工作流 L1工作全交给AI L2从管理人变为管理Agents L3从解决问题变为设计系统 预测运营效率可提升5到10倍 [7] - 招聘策略从青睐"专才"转向"通才" 面试中询问AI使用习惯、要求提交AI案例研究、给出真实业务挑战评估AI应用能力 [7] OpenAI与微软的战略合作深化 - OpenAI完成重组 非营利基金会持有价值1300亿美元股份成全球最大慈善基金之一 首批投入250亿美元用于医疗健康和AI安全 [8] - 新协议明确OpenAI当前及未来AGI模型API将在7年内独家部署Azure 微软持有OpenAI约32.5%股份价值约1350亿美元 [8] - 双方签下2500亿美元Azure预购合同 微软上季度资本开支高达349亿美元较前一季度猛增40% 主要投向新建数据中心和采购AI芯片 [8] OpenAI内部治理与领导层变动 - Ilya Sutskever在马斯克起诉OpenAI案中作证近10小时 [9] - Ilya提交52页备忘录详细记录Altman"问题行为" 指控其欺骗董事会、挑拨离间、制造混乱和纵容Anthropic成长 [9] - 解雇Altman后董事会曾严肃探讨与Anthropic合并可能性 拟让Dario Amodei担任CEO 但因实际操作障碍和700名员工兵变而流产 [10]
关于端侧大模型芯片化的若干趋势思考......
自动驾驶之心· 2025-10-23 08:04
文章核心观点 - 算法、框架和部署技术的演进正深刻影响未来端侧芯片的设计,当前端侧芯片在支持大模型时面临效率未达上限的挑战 [1][2] - 视觉与语言大模型带来的性能飞跃使Transformer架构支持势在必行,但其计算复杂度对端侧设备的算力和带宽提出巨大需求 [4] - 线性注意力、动态稀疏MoE、低比特量化和Token压缩是未来端侧芯片设计需重点关注的四大确定性技术趋势 [5][7][11][14] 注意力机制演进对芯片设计的影响 - Transformer自注意力机制的计算复杂度与序列长度呈平方关系,对prefill阶段算力和decode阶段带宽构成挑战 [4] - 线性注意力机制通过核函数近似将计算复杂度降至线性水平,RWKV、Mamba、DeltaNet等属此路线 [5] - 稀疏注意力通过将序列长度n变小来突破瓶颈,DSA、MoBA等技术是典型代表,今年ACL最佳论文DSA即属此类 [5] - 对端侧芯片而言,注意力机制变体影响有限,只要算子可融合则计算效率依然高,通道数、head数及SRAM容量是更关键瓶颈 [5] 动态稀疏与MoE技术的影响 - MoE技术在推理阶段只激活部分专家,14B稠密模型与30B-A3B稀疏模型相比,后者性能更好且推理时省算力、省带宽 [8] - 单batch场景下MoE优势明显,但多batch decode阶段带宽需求几乎等同于30B稠密模型,此时反而不如稠密模型 [8] - 蚂蚁集团MoE模型(100B-A6.1B及端侧16B-A1.4B)展现出稀疏性加大趋势,未来MoE技术将驱动芯片向大内存、中带宽、中算力方向发展 [9] - MoE模型压缩是工业界需关注的重点,例如MoNE等工作致力于降低内存需求 [9] 低比特量化技术趋势 - Deepseek采用FP8训练开启低比特量化新时代,端侧大模型对4bit及以下量化有更激进需求 [11] - 技术呈现四大特性:权重专用量化(如GPTQ、AWQ)以解决decode带宽瓶颈;低精度浮点与定点数两条技术路线;细粒度量化提升精度;动态与静态量化的权衡 [11][12] - 混合量化是未来趋势,尤其适合处理大模型层内层间数值不平衡问题,在MoE模型上有更大应用潜力 [12] Token压缩技术的影响 - Token维度压缩极大降低端侧大模型应用门槛,视觉Token数量远超文本Token且冗余度高,是压缩重点 [14] - FastV、PyramidDrop、Holov、LightVLM、SpecPrune-VLA等工作近期呈现井喷式发展 [14] - 对芯片设计而言,Token压缩技术是纯收益,能够直接降低计算量 [14]
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
晚点LatePost· 2025-02-20 22:21
注意力机制优化进展 - Kimi和DeepSeek同日发布注意力机制改进成果MoBA和NSA,均针对Transformer核心组件"注意力机制"进行创新[2] - 标准全注意力机制存在计算复杂度随文本长度平方级增长的问题,成为制约长上下文能力的关键瓶颈[4] - 行业出现两大优化方向:稀疏注意力机制(如NSA/MoBA/InfLLM)和线性注意力机制(如MiniMax-01),前者侧重稳健优化,后者尝试根本性解决计算爆炸问题[5] MoBA技术演进 - 项目始于2023年5月,初始目标为支持16K长度预训练,后升级至128K需求,经历v0.5到v2三次架构迭代[6][12][16] - 关键技术突破包括:采用Online Softmax实现与全注意力机制的可对照调试、解决注意力汇聚点问题、最终形成极简单层稀疏注意力结构[13][16] - 在1M长度测试中达到与全注意力机制持平的性能指标,已部署至Kimi生产环境[20] 行业竞争格局 - 中国头部AI公司密集发布注意力机制创新:MiniMax-01采用线性注意力,面壁智能InfLLM被NSA论文引用[5] - 微软亚研院专家指出稀疏注意力与线性注意力的本质差异:前者保留复杂依赖关系捕捉能力,后者可能牺牲部分长程关联性[5] - 清华大学团队证实NSA和MoBA均采用动态注意力选择机制,相比静态方法显著提升模型性能[5] 工程实现细节 - MoBA开源代码已在GitHub发布,包含完整工程实现与技术论文,实际经过1年多线上验证[6][25] - 解码阶段对MHA效果最佳(IO优化达理论最大值),但对GQA/MQA效果递减[22] - Triton实现版本曾获得10%+性能提升,但因维护成本过高暂未持续优化[24] 研发方法论 - 采用"饱和救援"模式推进技术攻坚,整合跨团队资源进行多轮消融实验[15][19] - 通过"思过崖"机制实现快速试错与迭代,三次关键架构调整分别解决参数膨胀、训练不稳定和SFT效率问题[8][13][19] - 最终方案保留数学严谨性(支持全注意力模式对照)与工程实用性(单机/分布式兼容)的双重优势[16][20]