Workflow
Gated DeltaNet
icon
搜索文档
再谈注意力:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进丨晚点播客
晚点LatePost· 2025-12-02 17:13
注意力机制演进背景 - 传统全注意力机制计算开销随文本长度呈平方级暴增,是限制模型处理长文档的关键瓶颈[5] - 注意力机制改进的两个主要方向是"稀疏注意力"和"线性注意力"[5] - 阿里巴巴和月之暗面在2024年9月和10月底先后开源Qwen3-Next和Kimi Linear模型,其中的注意力机制都使用了线性注意力DeltaNet和全注意力混合的方式[5] DeltaNet与线性注意力技术核心 - 线性注意力的核心思想是将自注意力中的Softmax函数移除,经过数学等价变换可重写成循环神经网络的递推形式,将复杂度从平方级降至线性[12] - DeltaNet利用Delta Rule来更快地写入和更新权重,基于2021年LSTM作者团队的论文《线性Transformer本质上是快速权重编程器》的思路[13] - 线性注意力默认使用赫布学习进行权重更新,为实现更高效的上下文检索能力可替换为更强大的Delta Rule[14] - DeltaNet在2021年被提出后不火的原因包括缺少关键架构改进和实现不够好,后续通过并行化优化使其能大规模训练[20] - Gated DeltaNet在DeltaNet基础上加衰减,可视为DeltaNet与Mamba 2的结合,保留当代架构思路同时继承更强的Delta Rule更新[21] 行业应用与厂商策略 - 阿里巴巴Qwen3-Next团队对全局注意力、混合滑窗注意力、Mamba 2和Gated DeltaNet做了对比,结果Gated DeltaNet表现最好并被采用[23] - Kimi Linear使用的KDA是Gated DeltaNet的细粒度版,将衰减从粗到细,每个channel有独立的遗忘率用于存储不同时间尺度的信息[24] - 线性注意力与全注意力混合使用的原因是线性注意力提供速度优势但容量小,全注意力提供容量优势但推理速度慢[24] - MiniMax在4560亿参数的MoE M1上使用混合线性注意力与全注意力的Lightning Attention,但在M2中又回归完全注意力,主要因混合架构在多跳推理任务上准确率下降明显[26][27][28] - DeepSeek更相信稀疏注意力,其MLA和DeepSeek-Sparse-Attention都是稀疏注意力的改进[29] 技术对比与未来潜力 - 稀疏注意力通过减少激活的KV Cache读取来加速,单层潜力更强,但当KV Cache大小本身成为瓶颈时则无能为力[30] - 线性注意力有理论缺陷因状态空间固定,但混合架构中75%的层被换成RNN后,KV Cache大小减少3/4,可支持更大批量推理[30] - 在数据受限的后训练和强化学习中,线性注意力因更关注邻近token可能表现更好,因其带有归纳偏见[31][32] - 从电路复杂度看,完全注意力属于TC⁰,而DeltaNet是NC¹-complete架构,更擅长状态追踪,这对Agentic AI至关重要[33] - 架构改进需满足两个scalable关键点:大规模训练下效率要有保证且硬件友好,模型放大后依然有效[35] 未来发展方向 - 稀疏注意力的核心趋势是动态稀疏,难点在于硬件上高效实现,现有block级和token级两条技术路线[46] - 线性注意力未来更值得探索更新规则,考虑DeltaNet外还有哪些更新方式既能更好并行实现又更具表达力[48] - 理想方向是将稀疏注意力和线性注意力结合,用稀疏注意力混线性注意力的组合替代完全注意力层,以降低KV cache规模[49] - 持续学习是重要方向,需解决如何让模型持续吸收外界信息而无需隔段时间重训,具有显著商业价值如个性化服务[50] - 测试时训练或快速权重编程允许处理新token后实时更新权重,可能解决长文本问题和实现持续学习[51]
创智突破:AI首次自主发现106个超越人类设计的神经网络架构
机器之心· 2025-07-24 14:50
文章核心观点 - AI系统ASI-Arch实现了从“自动化优化”到“自动化创新”的范式转变,标志着AI架构设计领域的“AlphaGo时刻”[15][16][19] - 该系统在完全自主的条件下发现了106个超越人类设计的神经网络架构,证明了科学发现可以遵循缩放定律,进入工业化量产时代[2][20] - 这一突破意味着科学研究正从“人力驱动”模式转向“算力驱动”模式,是认知能力的代际革命[10][48][49] 从数学金牌到科学发现:认知复杂度的代际跃迁 - 解决IMO数学竞赛题目属于封闭性问题求解,而科学发现是开放性的长期认知过程,需要提出原创问题、设计实验、形成假设等[1][4] - ASI-Arch系统基于大模型技术构建了高度自主的多智能体研究框架,能独立完成从问题识别到结果验证的完整科研流程[5] - 系统进行了1,773次独立实验,累计消耗超过20,000 GPU小时的计算资源,其研究规模和效率远超传统人类团队[7] 突破性成果:106个超越人类的创新架构 - AI自主发现的106个线性注意力架构在多个基准测试中性能显著超越Mamba2、Gated DeltaNet等人类设计的顶尖基线模型[2][7][12] - 系统展现出超越人类认知边界的创新能力,其设计理念和优化策略连领域顶级专家也未曾考虑过[12] - 这一成果类似于围棋界的“Move 37时刻”,证明了AI在科学创新领域的超人类潜力[13] 为什么说这是AI架构设计的“AlphaGo时刻” - 传统神经架构搜索技术是在人类预设空间内进行优化,而ASI-Arch能够自主提出全新假说、实现验证并超越人类范式[15][16][18] - 这实现了从“工具”到“研究伙伴”甚至“独立研究员”的角色转变,涉足以往人类独有的创造性科学发现过程[19] - 研究首次建立了“科学发现缩放定律”,发现速度和质量与计算资源投入呈稳定缩放关系,标志科研从人力密集型转向计算密集型[20] ASI-Arch超智能如何自主进行科学研究 - 系统核心是由研究员、工程师、分析师和认知库四个模块构成的闭环进化系统[24] - 研究员负责提出架构设想,工程师进行训练评估,分析师总结实验数据,认知库存储近百篇人类顶尖论文的核心知识[25][26][27][28] - 创新性地引入Fitness Function和LLM专家评审,综合评估性能指标和创新性,避免“奖励黑客”问题[29] 实验结果解读:AI“研究员”全面超越人类顶尖模型 - 在涵盖常识推理、阅读理解等12个基准测试的综合平均得分上,AI架构全面超越了Gated DeltaNet等人类基线模型[31][34][35] - AI架构在训练损失和困惑度指标上表现更优,表明其学习效率更高,对语言规律的把握更精准[36] - 106个新SOTA架构的集体涌现证明发现能力是系统性、可复现的,AI独立演化出了巧妙的门控机制与路径融合策略[37] AI“研究员”的设计哲学:涌现出怎样的智慧 - AI设计聚焦经典组件,如门控系统和卷积架构,通过对关键技术的精妙组合实现突破,而非盲目追求新颖性[39] - 顶尖模型的设计灵感有44.8%来源于对过往实验的自我反思,表明自我探索和总结能力是产出颠覆性成果的关键[41][42] - 系统展现出“设计纪律”,模型参数量分布稳定,拒绝通过暴力堆砌复杂度来提升性能的简单策略[43] 开源贡献:推动全球AI研究民主化 - 研究团队将全部106个突破性架构、完整系统框架及研究过程数据向全球开源,促进协同发展[45] - 这一举措标志着“AI for AI research”新时代的开启,AI成为研究主体,形成自我改进的正向循环[45]