Mamba - 财报，业绩电话会，研报，新闻

Mamba

搜索文档

量子位· 2025-10-31 14:27

核心观点 - 月之暗面发布的Kimi Linear架构首次在相同训练条件下超越了全注意力Transformer模型，标志着AI架构可能正告别对传统Transformer的路径依赖，迈向多元创新时代 [1][2][32] 架构创新与核心机制 - Kimi Linear的核心创新是Kimi Delta Attention，通过引入细粒度遗忘门控，使模型能在每个通道维度上独立控制记忆保留，保留重要信息并丢弃冗余信息 [12] - 该机制基于改进的Delta Rule，在数学上保证了稳定性，即使在百万级token序列中梯度也不会爆炸或消失 [13][14] - 模型采用3:1的混合层设计，每3层线性注意力后加1层全注意力，以保留全局语义建模能力并在多数层节省计算资源 [15] - 架构移除了传统的RoPE位置编码，让KDA通过时间衰减核函数自行学习序列位置信息，结果模型更稳定、泛化能力更强 [16][17] 性能提升与效率优势 - 在长上下文任务中，Kimi Linear减少了75%的KV缓存需求，并实现了高达6倍的推理加速 [4][23] - 在1.4T tokens训练规模下，Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer [22] - 具体表现为：MMLU得分73.8超越基线的71.6，MMLU-Pro得分51.0超越基线的47.2，BBH得分72.9超越基线的71.6 [23] - 在数学推理与代码生成任务上表现更稳定且得分更高，如GSM8K得分83.9，MATH得分54.7 [23][26] 工程优化与部署便利性 - 采用Diagonal-Plus-Low-Rank结构将注意力矩阵拆分为“对角块+低秩补丁”，使GPU在并行计算时能一次性处理更多内容，吞吐率直接翻倍 [18][19] - 通过分块并行计算和内核融合优化，极大地减少了显存I/O开销 [20] - 工程部署上可无缝对接vLLM推理框架，无需改动模型结构或缓存管理，任何基于Transformer的系统理论上都能一键升级为Kimi Linear [21] 行业趋势与替代架构 - Mamba的作者曾论述Transformer并非最终解法，状态空间模型在长序列建模和高效计算上展现出强大的替代潜力 [28] - 谷歌推出的MoR架构探索用递归结构取代部分注意力，通过动态计算深度来减少冗余推理 [29] - 苹果公司在多项研究中倾向采用Mamba而非传统Transformer，因SSM架构更节能、延迟更低、适合终端设备部署 [30] - 尽管新架构不断涌现，刚刚坐上开源模型王座的MiniMax M2却重新用回了全注意力机制，显示技术路线存在多样性 [33]

线性注意力

全注意力模型

Artificial Intelligence

Artificial Intelligence

Kimi Linear架构

Transformer

Mamba

苹果AI选Mamba：Agent任务比Transformer更好

量子位· 2025-10-21 13:41

文章核心观点 - 苹果公司最新研究发现，在长任务、多交互的Agent场景中，基于状态空间模型（SSM）的Mamba模型，在结合外部工具后，其效率与泛化能力展现出超越Transformer架构的潜力 [1] Transformer架构的局限性 - Transformer依赖自注意力机制，计算量随输入序列长度增加呈平方级增长，例如处理1000个词需计算100万次词对关系，处理上万词的长文档计算量达亿级，对GPU造成较大负担 [3][4][5] - 高计算成本导致处理延迟显著增加，在需要动态决策与迭代优化的Agent任务中表现不佳，因每一步都需重新计算全局注意力，整体效率偏低 [12] - 在需要反复调整的Agent式任务中，Transformer显得又贵又笨重 [18] Mamba架构的优势与局限 - Mamba作为状态空间模型，不依赖全局注意力，通过持续更新的内部状态理解信息，计算量随序列长度仅呈线性增长，例如处理1000个词仅需对应数量级计算 [6][7][13] - Mamba支持流式处理，可边接收输入边计算，且内存占用稳定，不会随序列长度显著上升，效率突出 [13] - Mamba的局限在于内部状态存储容量有限，处理超长序列时早期信息易被后续输入覆盖，导致对前文关键信息保留能力较弱 [9] “Mamba+工具”方案的性能表现 - 苹果团队提出通过引入外部工具（如指针工具、文件查看工具、运行工具）来扩展Mamba的信息处理能力，相当于为模型提供可动态调用的外部存储和交互接口 [10][11] - 在多位数加法任务中，配备指针工具的Mamba经5位数训练后能稳定处理1000位数计算，准确率近100%，而Transformer处理20位数时已出现明显误差 [15] - 在代码调试任务中，Mamba模拟交互式调试流程，面对高于训练集复杂度的代码库，其正确率显著高于Transformer [15] - 在逻辑推理及汉诺塔等分步规划任务中，结合工具的Mamba能应对更复杂场景，Transformer则计算缓慢或卡壳 [15] - “Mamba+工具”组合补足了Mamba的记忆短板，在Agent场景下反应快且效率提升显著 [16]

苹果(US:AAPL)

Artificial Intelligence

Software & Internet

Mamba

Transformer

Artificial Intelligence

Software & Internet

Mamba

Transformer

Flash Attention作者最新播客：英伟达GPU统治三年内将终结

量子位· 2025-09-29 12:57

英伟达市场地位与竞争格局 - 英伟达当前在AI芯片市场占据约90%主导地位，主要优势在于芯片设计、软件生态及网络通信技术[9][10] - AMD在推理端具备内存容量优势，但在训练端因网络通信瓶颈仍落后于英伟达[10] - 未来2-3年内AI硬件格局将转向多元化，专用芯片厂商如Cerebras、Grok、SambaNova将针对不同工作负载实现差异化竞争[23][24] AI芯片技术发展趋势 - 芯片设计将更适配Transformer、MoE等特定架构，工作负载集中化使专用芯片开发更易实现[10] - 稀疏计算（如MoE架构）增加芯片设计复杂度，需应对内存访问模式变化[13][14] - 硬件需支持三类工作负载：低延迟智能体系统（毫秒级响应）、高吞吐批量处理（海量数据生成）、交互式聊天机器人[24][96][111] 推理成本优化与技术突破 - 近三年推理成本下降约100倍，未来有望再降低10倍[73][90] - 量化技术推动参数表示从16位降至4位，GPT-oss模型1200亿参数仅需60GB存储空间[82][83] - 架构优化如Flash Attention减少内存访问，DeepSeek的multi-head latent attention压缩KV缓存规模[84] - MoE架构显著提升稀疏度，从Mistral的8专家激活2个（25%）演进至GPT-oss的128专家激活4个（1/32）[86][87] 模型架构演进方向 - Transformer仍是基础架构，但MoE、状态空间模型（如Mamba）等创新持续涌现[13][94][132] - 混合架构（Transformer+Mamba）在降低成本的同时提升推理性能[132] - 架构设计趋向"推理优先"，以最大化每浮点操作的推理效率[131][133] AI工作负载分类与优化 - 三类核心工作负载形成：传统聊天机器人（中等延迟）、极低延迟场景（代码辅助等）、大规模批处理（合成数据生成）[96][111] - 低延迟场景用户愿支付更高成本，高吞吐场景注重批量折扣（如OpenAI批量API提供50%折扣）[24][110] - 代理型工作负载成为新焦点，需整合Web搜索、工具调用等外部能力[20][115] 开发工具与抽象层进展 - Triton成为跨芯片抽象层关键，支持英伟达、AMD、Intel GPU，但需牺牲约5%性能换取开发效率提升[38][40][41] - Mojo、Gluon等领域专用语言快速迭代，解决GPU内核开发痛点[45][50][52] - AI辅助编程工具（如Claude Code）提升开发效率约1.5倍，但全自动内核生成仍处早期阶段[56][67][68] 新兴应用场景与市场机会 - 实时视频生成成为消费端趋势，代表企业包括Pika Labs、Hetra[117][118] - 机器人领域存在重大机遇，需解决多分辨率数据处理与现实世界交互数据缺失问题[135][137][138] - 合成数据市场被低估，在航空、金融等专业领域具有经济价值[99][102][148] 学术与产业协同创新 - 基础突破多源于学术界（如Attention机制、Adam优化器、LayerNorm），产业界负责商业化落地[143][144][145] - 学术探索周期长（2-3年），产业执行速度快（周/月级），形成互补创新模式[140][145] - 政府资金支持早期探索（5-10%成功率），风险投资推动规模化应用[142][146]

英伟达(US:NVDA)

AGI

Transformer

Mixture of Experts (MoE)

Mixture of Experts (MoE)

模型推理成本

人工智能

芯片制造

「Tokens是胡扯」，Mamba作者抛出颠覆性观点，揭露Transformer深层缺陷

机器之心· 2025-07-09 17:52

状态空间模型与Transformer的权衡 - 状态空间模型(SSM)通过固定大小的隐藏状态压缩历史信息，实现流式处理，而Transformer需要缓存所有历史token导致内存线性增长[24] - SSM在字节级建模任务中表现优于Transformer，即使后者使用更多计算资源，表明Transformer存在建模能力局限[53][55][56] - SSM与Transformer结合使用时(比例3:1到10:1)表现更优，类似人类智能通过大脑与外部数据库协同工作[29][30] Transformer的局限性 - Transformer需要数据预处理如tokenization或图像切块，本质上是对其建模缺陷的补偿[35][38][41] - 注意力机制对噪声token处理效率低下，计算量仍随token增加而增长，无法有效过滤冗余信息[69][70] - Transformer的归纳偏置使其过度关注单个token，在低语义密度数据(如字符/DNA序列)上表现较差[62][64][65] 现代循环模型技术演进 - Mamba通过动态转移矩阵、并行扫描算法和内存管理三大技术要素整合，实现与Transformer相当的语言建模性能[13][14][16] - 现代循环模型研究呈现爆发式增长，包括RWKV、xLSTM等变体，共享SISO线性递归和状态扩展核心特征[17][19] - SSM类模型在DNA建模等任务中展现优于Transformer的扩展能力，预示其在处理原生数据方面的优势[60][61] 架构设计哲学 - SSM类似大脑的压缩记忆机制可能促进抽象学习，而Transformer类似数据库的精确召回各有利弊[27][78] - 理想架构应具备处理噪声能力而不增加计算负担，当前模型均未完全解决此问题[71][72] - 扩展定律显示Transformer并非计算效率最优方案，存在改进空间以更好利用FLOP资源[87][88]

Mamba一作预告新架构！长文论述Transformer≠最终解法

量子位· 2025-07-09 12:57

序列模型架构比较 - Mamba作为状态空间模型(SSMs)代表，在语言任务上3B规模超越同等Transformer，匹敌两倍规模Transformer [2] - SSMs工作方式类似人类大脑，通过压缩历史信息形成固定大小隐藏状态，适合处理长序列且计算成本呈线性增长 [15][16] - Transformer通过KV缓存完整记录所有token信息，具备精确记忆能力但计算成本呈二次复杂度 [23][25] 模型性能优势 - SSMs在语言/音频/DNA序列模态实现SOTA，计算效率高且内存需求固定 [16] - Mamba通过三大关键改进提升性能：扩大状态维度至RNN的N倍/引入选择性记忆机制/优化训练效率 [17][18][19][20] - Transformer依赖tokenization预处理，在多语言多模态场景存在局限性且违背端到端学习原则 [28][29][30] 架构融合趋势 - 混合架构中SSM层与注意力层最佳比例介于3:1至10:1之间 [37] - 注意力机制二次复杂度并非Transformer主要缺陷，新架构将保持兼容性 [5][7] - 未来方向是结合SSMs的在线处理能力与Transformer的精确检索优势，直接处理原始数据 [36][40] 行业技术发展 - Mamba作者预告几天后将发布架构领域重大进展 [3] - 当前共识可能被推翻，Transformer被视为阶段性最优解而非最终方案 [8] - 架构设计核心指标是FLOPs利用率，需快速转化为模型能力 [39]

Transformer死角，只需500步后训练，循环模型突破256k长度泛化极限

机器之心· 2025-07-08 12:09

循环模型与Transformer对比 - 线性循环模型（如Mamba）和线性注意力机制能处理极长序列，这是其相较于Transformer的关键优势，后者受限于二次计算复杂度和有限上下文窗口[1][2] - 过去循环模型在短序列任务中性能不如Transformer，但近期架构突破使其性能显著提升，已在音频建模、代码补全等工业场景中应用[3] 循环模型的长度泛化问题 - 循环模型在训练长度范围内表现良好，但超出训练长度时泛化能力明显下降，例如Mamba-2在超出训练范围的序列位置困惑度急剧恶化[4][5] - 现有循环模型在长序列和短序列两个维度均未显现明显优势，处于效率与性能的双重瓶颈[6] 长度泛化解决方案 - 通过500步后训练（占预训练预算0.1%）可使循环模型在256k长度序列实现泛化，证明其潜力未被充分释放[7] - 提出"未探索状态假说"：循环模型失败主因是训练时未接触长序列递推产生的状态分布，导致对未知状态处理能力不足[13][14][15] - 四种初始状态干预方法：随机噪声、拟合噪声、状态传递（SP）、TBTT，其中SP与TBTT效果最佳，仅需原始预训练预算0.02%即可实现泛化[19][20][23][24] 干预方法的效果验证 - 在370M参数模型中，拟合噪声干预有效但随机噪声无效；1.3B大模型因状态依赖复杂，需更高级干预手段[25][26] - 干预措施能稳定状态范数增长，提升模型输出稳定性[27] - 在BABILong、密码检索、合成复制三项长上下文任务中，干预后模型表现显著提升，780M模型可完美解决256k序列密码检索任务[31][32][33][35][36][38][39] 上下文处理机制优化 - 提出"有效记忆（EffRem）"指标量化模型对历史token的依赖程度，发现未干预模型对早期token存在不合理依赖[44][45][46][48][49][50] - 状态传递干预后，模型有效记忆曲线呈现理想梯度，优先关注最近上下文，符合自然语言处理需求[51][52]

Artificial Intelligence

Artificial Intelligence

机器学习系列之九：Mamba-MoE：风险中性化与多模型融合

东北证券· 2025-05-29 15:41

量化模型与构建方式 1. **模型名称：Mamba-MoE** - **模型构建思路**：通过Mamba架构高效提取时间序列特征，结合混合专家模型（MoE）进行多模型融合，同时引入线性与非线性的风险约束以降低风险暴露[2][3][44]。 - **模型具体构建过程**： 1. **任务一（Alpha因子生成）**：使用Mamba模块处理股票特征序列（维度为`(batch_size, window_length, feature_num)`），通过卷积和SSM（选择性状态空间模型）提取时序特征，输出Alpha因子[27][30][32]。 - SSM离散化公式： $$\bar{A}=\exp(\Delta A),$$ $$\bar{B}=(\Delta A)^{-1}(\exp(\Delta A)-I)\Delta B.$$ 2. **任务二（非线性风险因子生成）**：构建异质图（节点为股票风险因子，边包括同行业关联和高相似度关联），通过图卷积生成非线性风险因子[47][48]。 3. **损失函数**：结合Alpha因子与风险因子的相关性惩罚项： $$L=MSE(\hat{y},y_1)+MSE(\hat{r},y_2)+\frac{\alpha}{d_R+1}\sum_{i=1}^{d_R+1}\rho(\hat{y},R_i)^2.$$ - **模型评价**：双任务学习显著降低风险暴露，提升因子稳定性；MoE融合增强模型泛化性[53][56][72]。 2. **模型名称：Mamba-10与Mamba-5** - **构建思路**：分别以10日和5日收益为标签训练模型，通过交叉验证生成多个子模型，等权或MoE融合[98][99]。 - **具体构建**：5折交叉验证扩展窗口训练，MoE路由器结合股票特征与市场特征动态加权[98][99]。 --- 量化因子与构建方式 1. **因子名称：Mamba-MoE合成因子** - **构建思路**：融合Mamba-5和Mamba-10的多模型输出，结合风险中性化约束[103][137]。 - **具体构建**： - 对Alpha因子进行行业市值中性化处理。 - 通过MoE加权合成，路由器输入包括股票特征和市场特征（如指数收益率、VIX等）[98][99]。 - **因子评价**：稳定性优于单模型，对市值暴露控制较好，但对低波动和低流动性有一定暴露[103][137]。 2. **因子名称：非线性风险因子** - **构建思路**：捕捉风险因子间非线性交互及股票关联信息[44][48]。 - **具体构建**：基于CNE6风险因子构建异质图，通过GNN生成非线性风险因子[48][49]。 --- 模型的回测效果 1. **Mamba-MoE模型** - Rank IC：13.22%，ICIR：1.28，多头年化收益：33.01%，多空Sharpe Ratio：9.25[103][137]。 - 沪深300增强年化超额收益：9.02%，跟踪误差：4.26%[156]。 2. **Mamba-10模型（双任务）** - Rank IC：12.83%，ICIR：1.28，多空最大回撤：11.71%[56][72]。 3. **行业风格中性化测试** - 双任务设定下Rank IC衰减至8.81%，但多空Sharpe Ratio仍达11.49[72]。 --- 因子的回测效果 1. **Mamba-MoE合成因子** - 全市场十分组测试：多空年化收益125.32%，波动率13.55%[103]。 - 分域测试（中证1000）：Rank IC 11.12%，多空Sharpe Ratio 7.17[137]。 2. **非线性风险因子** - 与流动性因子相关性：-20.74%（双任务）[78][79]。 --- 关键创新点 - **风险中性化**：通过损失函数直接约束风险暴露，避免组合优化时的信号扭曲[44][50]。 - **多模型融合**：交叉验证与MoE集成缓解分布漂移问题，提升稳健性[2][98][99]。 - **高效计算**：Mamba的线性复杂度优于Transformer，支持并行训练[23][31]。

3700 次预训练寻找 “线性注意力” 非共识，MiniMax-01 开发者讲述 4 年探索

晚点LatePost· 2025-03-09 20:00

线性注意力机制的发展历程 - 线性注意力机制从2021年开始探索，当时被视为"看起来很美好的泡泡"，但公司团队坚持投入研发 [5][21] - 2023年底验证了15B规模的纯线性方案效果接近Transformer，但发现召回能力存在缺陷 [35] - 最终采用7层线性注意力混合1层Softmax注意力的架构，在4560亿参数模型上实现应用 [36][37] 技术优势与验证过程 - 线性注意力理论计算复杂度从二次降为线性，长序列处理速度比Full Attention快2700倍 [11][44] - 通过3700次预训练测试验证技术可行性，涵盖不同参数规模和架构方案 [41][42] - 在7B参数以上模型规模时，线性注意力优势开始明显显现 [16][17] 行业竞争格局 - 线性注意力与稀疏注意力是当前两大改进方向，2023年后线性方向热度上升 [17] - 公司认为线性架构上限更高，未来在长文本赛道具备优势 [50][51] - 目前行业对线性注意力仍存在非共识，部分认为其属于有损优化 [52][53] 产品化与战略布局 - 公司将80%研发资源投入线性架构模型开发，视为重大战略转型 [31][48] - 下一代计划推出深度推理原生多模态模型，预计4-5月发布 [58][60] - 开源4560亿参数模型MiniMax-01，但未提供小尺寸版本 [57] 技术挑战与解决方案 - 线性注意力存在GPU并行化难题，通过Lightning Attention提升实际运行效率 [22] - 召回能力缺陷通过混合架构解决，测试不同比例后选择1:7方案 [36][38] - 多模态实现采用adapter形式而非原生方案，以快速验证效果 [48]

线性注意力

稀疏注意力

Transformer

Artificial Intelligence

Artificial Intelligence

MiniMax-01

Lightning Attention