Mamba
搜索文档
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
量子位· 2025-10-31 14:27
核心观点 - 月之暗面发布的Kimi Linear架构首次在相同训练条件下超越了全注意力Transformer模型,标志着AI架构可能正告别对传统Transformer的路径依赖,迈向多元创新时代 [1][2][32] 架构创新与核心机制 - Kimi Linear的核心创新是Kimi Delta Attention,通过引入细粒度遗忘门控,使模型能在每个通道维度上独立控制记忆保留,保留重要信息并丢弃冗余信息 [12] - 该机制基于改进的Delta Rule,在数学上保证了稳定性,即使在百万级token序列中梯度也不会爆炸或消失 [13][14] - 模型采用3:1的混合层设计,每3层线性注意力后加1层全注意力,以保留全局语义建模能力并在多数层节省计算资源 [15] - 架构移除了传统的RoPE位置编码,让KDA通过时间衰减核函数自行学习序列位置信息,结果模型更稳定、泛化能力更强 [16][17] 性能提升与效率优势 - 在长上下文任务中,Kimi Linear减少了75%的KV缓存需求,并实现了高达6倍的推理加速 [4][23] - 在1.4T tokens训练规模下,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer [22] - 具体表现为:MMLU得分73.8超越基线的71.6,MMLU-Pro得分51.0超越基线的47.2,BBH得分72.9超越基线的71.6 [23] - 在数学推理与代码生成任务上表现更稳定且得分更高,如GSM8K得分83.9,MATH得分54.7 [23][26] 工程优化与部署便利性 - 采用Diagonal-Plus-Low-Rank结构将注意力矩阵拆分为“对角块+低秩补丁”,使GPU在并行计算时能一次性处理更多内容,吞吐率直接翻倍 [18][19] - 通过分块并行计算和内核融合优化,极大地减少了显存I/O开销 [20] - 工程部署上可无缝对接vLLM推理框架,无需改动模型结构或缓存管理,任何基于Transformer的系统理论上都能一键升级为Kimi Linear [21] 行业趋势与替代架构 - Mamba的作者曾论述Transformer并非最终解法,状态空间模型在长序列建模和高效计算上展现出强大的替代潜力 [28] - 谷歌推出的MoR架构探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理 [29] - 苹果公司在多项研究中倾向采用Mamba而非传统Transformer,因SSM架构更节能、延迟更低、适合终端设备部署 [30] - 尽管新架构不断涌现,刚刚坐上开源模型王座的MiniMax M2却重新用回了全注意力机制,显示技术路线存在多样性 [33]
苹果AI选Mamba:Agent任务比Transformer更好
量子位· 2025-10-21 13:41
文章核心观点 - 苹果公司最新研究发现,在长任务、多交互的Agent场景中,基于状态空间模型(SSM)的Mamba模型,在结合外部工具后,其效率与泛化能力展现出超越Transformer架构的潜力 [1] Transformer架构的局限性 - Transformer依赖自注意力机制,计算量随输入序列长度增加呈平方级增长,例如处理1000个词需计算100万次词对关系,处理上万词的长文档计算量达亿级,对GPU造成较大负担 [3][4][5] - 高计算成本导致处理延迟显著增加,在需要动态决策与迭代优化的Agent任务中表现不佳,因每一步都需重新计算全局注意力,整体效率偏低 [12] - 在需要反复调整的Agent式任务中,Transformer显得又贵又笨重 [18] Mamba架构的优势与局限 - Mamba作为状态空间模型,不依赖全局注意力,通过持续更新的内部状态理解信息,计算量随序列长度仅呈线性增长,例如处理1000个词仅需对应数量级计算 [6][7][13] - Mamba支持流式处理,可边接收输入边计算,且内存占用稳定,不会随序列长度显著上升,效率突出 [13] - Mamba的局限在于内部状态存储容量有限,处理超长序列时早期信息易被后续输入覆盖,导致对前文关键信息保留能力较弱 [9] “Mamba+工具”方案的性能表现 - 苹果团队提出通过引入外部工具(如指针工具、文件查看工具、运行工具)来扩展Mamba的信息处理能力,相当于为模型提供可动态调用的外部存储和交互接口 [10][11] - 在多位数加法任务中,配备指针工具的Mamba经5位数训练后能稳定处理1000位数计算,准确率近100%,而Transformer处理20位数时已出现明显误差 [15] - 在代码调试任务中,Mamba模拟交互式调试流程,面对高于训练集复杂度的代码库,其正确率显著高于Transformer [15] - 在逻辑推理及汉诺塔等分步规划任务中,结合工具的Mamba能应对更复杂场景,Transformer则计算缓慢或卡壳 [15] - “Mamba+工具”组合补足了Mamba的记忆短板,在Agent场景下反应快且效率提升显著 [16]
Flash Attention作者最新播客:英伟达GPU统治三年内将终结
量子位· 2025-09-29 12:57
英伟达市场地位与竞争格局 - 英伟达当前在AI芯片市场占据约90%主导地位,主要优势在于芯片设计、软件生态及网络通信技术[9][10] - AMD在推理端具备内存容量优势,但在训练端因网络通信瓶颈仍落后于英伟达[10] - 未来2-3年内AI硬件格局将转向多元化,专用芯片厂商如Cerebras、Grok、SambaNova将针对不同工作负载实现差异化竞争[23][24] AI芯片技术发展趋势 - 芯片设计将更适配Transformer、MoE等特定架构,工作负载集中化使专用芯片开发更易实现[10] - 稀疏计算(如MoE架构)增加芯片设计复杂度,需应对内存访问模式变化[13][14] - 硬件需支持三类工作负载:低延迟智能体系统(毫秒级响应)、高吞吐批量处理(海量数据生成)、交互式聊天机器人[24][96][111] 推理成本优化与技术突破 - 近三年推理成本下降约100倍,未来有望再降低10倍[73][90] - 量化技术推动参数表示从16位降至4位,GPT-oss模型1200亿参数仅需60GB存储空间[82][83] - 架构优化如Flash Attention减少内存访问,DeepSeek的multi-head latent attention压缩KV缓存规模[84] - MoE架构显著提升稀疏度,从Mistral的8专家激活2个(25%)演进至GPT-oss的128专家激活4个(1/32)[86][87] 模型架构演进方向 - Transformer仍是基础架构,但MoE、状态空间模型(如Mamba)等创新持续涌现[13][94][132] - 混合架构(Transformer+Mamba)在降低成本的同时提升推理性能[132] - 架构设计趋向"推理优先",以最大化每浮点操作的推理效率[131][133] AI工作负载分类与优化 - 三类核心工作负载形成:传统聊天机器人(中等延迟)、极低延迟场景(代码辅助等)、大规模批处理(合成数据生成)[96][111] - 低延迟场景用户愿支付更高成本,高吞吐场景注重批量折扣(如OpenAI批量API提供50%折扣)[24][110] - 代理型工作负载成为新焦点,需整合Web搜索、工具调用等外部能力[20][115] 开发工具与抽象层进展 - Triton成为跨芯片抽象层关键,支持英伟达、AMD、Intel GPU,但需牺牲约5%性能换取开发效率提升[38][40][41] - Mojo、Gluon等领域专用语言快速迭代,解决GPU内核开发痛点[45][50][52] - AI辅助编程工具(如Claude Code)提升开发效率约1.5倍,但全自动内核生成仍处早期阶段[56][67][68] 新兴应用场景与市场机会 - 实时视频生成成为消费端趋势,代表企业包括Pika Labs、Hetra[117][118] - 机器人领域存在重大机遇,需解决多分辨率数据处理与现实世界交互数据缺失问题[135][137][138] - 合成数据市场被低估,在航空、金融等专业领域具有经济价值[99][102][148] 学术与产业协同创新 - 基础突破多源于学术界(如Attention机制、Adam优化器、LayerNorm),产业界负责商业化落地[143][144][145] - 学术探索周期长(2-3年),产业执行速度快(周/月级),形成互补创新模式[140][145] - 政府资金支持早期探索(5-10%成功率),风险投资推动规模化应用[142][146]
「Tokens是胡扯」,Mamba作者抛出颠覆性观点,揭露Transformer深层缺陷
机器之心· 2025-07-09 17:52
状态空间模型与Transformer的权衡 - 状态空间模型(SSM)通过固定大小的隐藏状态压缩历史信息,实现流式处理,而Transformer需要缓存所有历史token导致内存线性增长[24] - SSM在字节级建模任务中表现优于Transformer,即使后者使用更多计算资源,表明Transformer存在建模能力局限[53][55][56] - SSM与Transformer结合使用时(比例3:1到10:1)表现更优,类似人类智能通过大脑与外部数据库协同工作[29][30] Transformer的局限性 - Transformer需要数据预处理如tokenization或图像切块,本质上是对其建模缺陷的补偿[35][38][41] - 注意力机制对噪声token处理效率低下,计算量仍随token增加而增长,无法有效过滤冗余信息[69][70] - Transformer的归纳偏置使其过度关注单个token,在低语义密度数据(如字符/DNA序列)上表现较差[62][64][65] 现代循环模型技术演进 - Mamba通过动态转移矩阵、并行扫描算法和内存管理三大技术要素整合,实现与Transformer相当的语言建模性能[13][14][16] - 现代循环模型研究呈现爆发式增长,包括RWKV、xLSTM等变体,共享SISO线性递归和状态扩展核心特征[17][19] - SSM类模型在DNA建模等任务中展现优于Transformer的扩展能力,预示其在处理原生数据方面的优势[60][61] 架构设计哲学 - SSM类似大脑的压缩记忆机制可能促进抽象学习,而Transformer类似数据库的精确召回各有利弊[27][78] - 理想架构应具备处理噪声能力而不增加计算负担,当前模型均未完全解决此问题[71][72] - 扩展定律显示Transformer并非计算效率最优方案,存在改进空间以更好利用FLOP资源[87][88]
Mamba一作预告新架构!长文论述Transformer≠最终解法
量子位· 2025-07-09 12:57
序列模型架构比较 - Mamba作为状态空间模型(SSMs)代表,在语言任务上3B规模超越同等Transformer,匹敌两倍规模Transformer [2] - SSMs工作方式类似人类大脑,通过压缩历史信息形成固定大小隐藏状态,适合处理长序列且计算成本呈线性增长 [15][16] - Transformer通过KV缓存完整记录所有token信息,具备精确记忆能力但计算成本呈二次复杂度 [23][25] 模型性能优势 - SSMs在语言/音频/DNA序列模态实现SOTA,计算效率高且内存需求固定 [16] - Mamba通过三大关键改进提升性能:扩大状态维度至RNN的N倍/引入选择性记忆机制/优化训练效率 [17][18][19][20] - Transformer依赖tokenization预处理,在多语言多模态场景存在局限性且违背端到端学习原则 [28][29][30] 架构融合趋势 - 混合架构中SSM层与注意力层最佳比例介于3:1至10:1之间 [37] - 注意力机制二次复杂度并非Transformer主要缺陷,新架构将保持兼容性 [5][7] - 未来方向是结合SSMs的在线处理能力与Transformer的精确检索优势,直接处理原始数据 [36][40] 行业技术发展 - Mamba作者预告几天后将发布架构领域重大进展 [3] - 当前共识可能被推翻,Transformer被视为阶段性最优解而非最终方案 [8] - 架构设计核心指标是FLOPs利用率,需快速转化为模型能力 [39]
Transformer死角,只需500步后训练,循环模型突破256k长度泛化极限
机器之心· 2025-07-08 12:09
循环模型与Transformer对比 - 线性循环模型(如Mamba)和线性注意力机制能处理极长序列,这是其相较于Transformer的关键优势,后者受限于二次计算复杂度和有限上下文窗口[1][2] - 过去循环模型在短序列任务中性能不如Transformer,但近期架构突破使其性能显著提升,已在音频建模、代码补全等工业场景中应用[3] 循环模型的长度泛化问题 - 循环模型在训练长度范围内表现良好,但超出训练长度时泛化能力明显下降,例如Mamba-2在超出训练范围的序列位置困惑度急剧恶化[4][5] - 现有循环模型在长序列和短序列两个维度均未显现明显优势,处于效率与性能的双重瓶颈[6] 长度泛化解决方案 - 通过500步后训练(占预训练预算0.1%)可使循环模型在256k长度序列实现泛化,证明其潜力未被充分释放[7] - 提出"未探索状态假说":循环模型失败主因是训练时未接触长序列递推产生的状态分布,导致对未知状态处理能力不足[13][14][15] - 四种初始状态干预方法:随机噪声、拟合噪声、状态传递(SP)、TBTT,其中SP与TBTT效果最佳,仅需原始预训练预算0.02%即可实现泛化[19][20][23][24] 干预方法的效果验证 - 在370M参数模型中,拟合噪声干预有效但随机噪声无效;1.3B大模型因状态依赖复杂,需更高级干预手段[25][26] - 干预措施能稳定状态范数增长,提升模型输出稳定性[27] - 在BABILong、密码检索、合成复制三项长上下文任务中,干预后模型表现显著提升,780M模型可完美解决256k序列密码检索任务[31][32][33][35][36][38][39] 上下文处理机制优化 - 提出"有效记忆(EffRem)"指标量化模型对历史token的依赖程度,发现未干预模型对早期token存在不合理依赖[44][45][46][48][49][50] - 状态传递干预后,模型有效记忆曲线呈现理想梯度,优先关注最近上下文,符合自然语言处理需求[51][52]
机器学习系列之九:Mamba-MoE:风险中性化与多模型融合
东北证券· 2025-05-29 15:41
量化模型与构建方式 1. **模型名称:Mamba-MoE** - **模型构建思路**:通过Mamba架构高效提取时间序列特征,结合混合专家模型(MoE)进行多模型融合,同时引入线性与非线性的风险约束以降低风险暴露[2][3][44]。 - **模型具体构建过程**: 1. **任务一(Alpha因子生成)**:使用Mamba模块处理股票特征序列(维度为`(batch_size, window_length, feature_num)`),通过卷积和SSM(选择性状态空间模型)提取时序特征,输出Alpha因子[27][30][32]。 - SSM离散化公式: $$\bar{A}=\exp(\Delta A),$$ $$\bar{B}=(\Delta A)^{-1}(\exp(\Delta A)-I)\Delta B.$$ 2. **任务二(非线性风险因子生成)**:构建异质图(节点为股票风险因子,边包括同行业关联和高相似度关联),通过图卷积生成非线性风险因子[47][48]。 3. **损失函数**:结合Alpha因子与风险因子的相关性惩罚项: $$L=MSE(\hat{y},y_1)+MSE(\hat{r},y_2)+\frac{\alpha}{d_R+1}\sum_{i=1}^{d_R+1}\rho(\hat{y},R_i)^2.$$ - **模型评价**:双任务学习显著降低风险暴露,提升因子稳定性;MoE融合增强模型泛化性[53][56][72]。 2. **模型名称:Mamba-10与Mamba-5** - **构建思路**:分别以10日和5日收益为标签训练模型,通过交叉验证生成多个子模型,等权或MoE融合[98][99]。 - **具体构建**:5折交叉验证扩展窗口训练,MoE路由器结合股票特征与市场特征动态加权[98][99]。 --- 量化因子与构建方式 1. **因子名称:Mamba-MoE合成因子** - **构建思路**:融合Mamba-5和Mamba-10的多模型输出,结合风险中性化约束[103][137]。 - **具体构建**: - 对Alpha因子进行行业市值中性化处理。 - 通过MoE加权合成,路由器输入包括股票特征和市场特征(如指数收益率、VIX等)[98][99]。 - **因子评价**:稳定性优于单模型,对市值暴露控制较好,但对低波动和低流动性有一定暴露[103][137]。 2. **因子名称:非线性风险因子** - **构建思路**:捕捉风险因子间非线性交互及股票关联信息[44][48]。 - **具体构建**:基于CNE6风险因子构建异质图,通过GNN生成非线性风险因子[48][49]。 --- 模型的回测效果 1. **Mamba-MoE模型** - Rank IC:13.22%,ICIR:1.28,多头年化收益:33.01%,多空Sharpe Ratio:9.25[103][137]。 - 沪深300增强年化超额收益:9.02%,跟踪误差:4.26%[156]。 2. **Mamba-10模型(双任务)** - Rank IC:12.83%,ICIR:1.28,多空最大回撤:11.71%[56][72]。 3. **行业风格中性化测试** - 双任务设定下Rank IC衰减至8.81%,但多空Sharpe Ratio仍达11.49[72]。 --- 因子的回测效果 1. **Mamba-MoE合成因子** - 全市场十分组测试:多空年化收益125.32%,波动率13.55%[103]。 - 分域测试(中证1000):Rank IC 11.12%,多空Sharpe Ratio 7.17[137]。 2. **非线性风险因子** - 与流动性因子相关性:-20.74%(双任务)[78][79]。 --- 关键创新点 - **风险中性化**:通过损失函数直接约束风险暴露,避免组合优化时的信号扭曲[44][50]。 - **多模型融合**:交叉验证与MoE集成缓解分布漂移问题,提升稳健性[2][98][99]。 - **高效计算**:Mamba的线性复杂度优于Transformer,支持并行训练[23][31]。
3700 次预训练寻找 “线性注意力” 非共识,MiniMax-01 开发者讲述 4 年探索
晚点LatePost· 2025-03-09 20:00
线性注意力机制的发展历程 - 线性注意力机制从2021年开始探索,当时被视为"看起来很美好的泡泡",但公司团队坚持投入研发 [5][21] - 2023年底验证了15B规模的纯线性方案效果接近Transformer,但发现召回能力存在缺陷 [35] - 最终采用7层线性注意力混合1层Softmax注意力的架构,在4560亿参数模型上实现应用 [36][37] 技术优势与验证过程 - 线性注意力理论计算复杂度从二次降为线性,长序列处理速度比Full Attention快2700倍 [11][44] - 通过3700次预训练测试验证技术可行性,涵盖不同参数规模和架构方案 [41][42] - 在7B参数以上模型规模时,线性注意力优势开始明显显现 [16][17] 行业竞争格局 - 线性注意力与稀疏注意力是当前两大改进方向,2023年后线性方向热度上升 [17] - 公司认为线性架构上限更高,未来在长文本赛道具备优势 [50][51] - 目前行业对线性注意力仍存在非共识,部分认为其属于有损优化 [52][53] 产品化与战略布局 - 公司将80%研发资源投入线性架构模型开发,视为重大战略转型 [31][48] - 下一代计划推出深度推理原生多模态模型,预计4-5月发布 [58][60] - 开源4560亿参数模型MiniMax-01,但未提供小尺寸版本 [57] 技术挑战与解决方案 - 线性注意力存在GPU并行化难题,通过Lightning Attention提升实际运行效率 [22] - 召回能力缺陷通过混合架构解决,测试不同比例后选择1:7方案 [36][38] - 多模态实现采用adapter形式而非原生方案,以快速验证效果 [48]