线性模型
搜索文档
老牌Transformer杀手在ICLR悄然更新:Mamba-3三大改进趋近设计完全体
机器之心· 2025-10-14 16:24
行业技术背景 - Transformer架构是当前AI模型的主流架构,但其挑战者不断涌现 [1] - 基于状态空间序列模型(SSM)架构的Mamba是Transformer最具影响力的挑战者之一,于2023年在社区爆火 [2] - Mamba在语言建模方面可媲美甚至击败Transformer,并能随上下文长度增加实现线性扩展,在处理百万token长度序列时实现5倍的推理吞吐量提升 [3] Mamba系列模型发展历程 - Mamba-1在2024年的ICLR会议上被拒稿,但在半年后发布的Mamba-2被顶会ICML 2024接收 [4] - Mamba-2的核心改进是对Mamba-1的选择性SSM进行优化,速度提高了2-8倍 [4] - Mamba-3目前已提交至ICLR 2026,正处于盲审环节 [6] Mamba-3核心技术改进 - 采用梯形离散化方法对连续时间动力系统进行离散化,使状态更新同时结合区间起点和终点的信息 [10][11] - 通过复数化状态空间模型实现更具表达力的状态更新机制,该机制等价于一种数据依赖的旋转位置编码 [13] - 引入多输入多输出状态空间模型(MIMO SSM),从单输入单输出系统泛化到多输入多输出系统,极大提升GPU并行吞吐效率 [14][15] Mamba-3性能表现 - Mamba-3-1.5B模型在所有下游任务上的平均准确率优于同等规模的Transformer、Mamba-2和Gated DeltaNet模型 [19] - 在440M参数规模下,Mamba-3-MIMO版本的FW-Edu困惑度为12.72,优于Mamba-2的13.00和Mamba-3标准版的12.87 [21] - 在bf16精度、d_state=128配置下,Mamba-3的SISO和MIMO版本的延迟分别为0.152毫秒和0.185毫秒,均低于Mamba-2的0.203毫秒 [27] 应用场景与潜力 - Mamba-3的高效长序列处理能力使其非常适合长文档理解、科学时间序列分析和基因建模等Transformer表现不佳的领域 [30] - 其线性时间推理和稳定延迟特性使其适合实时交互场景,如聊天助手、机器翻译和语音接口 [31] - 友好的硬件特性使Mamba-3有潜力在本地设备或边缘侧运行,实现不依赖云端的大模型推理 [31]