HedgeMamba
搜索文档
Transformer可以改装成Mamba了:苹果把推理成本直接打成线性
机器之心· 2026-04-22 11:34
文章核心观点 - 苹果公司提出了一种名为“HedgeMamba”的两阶段知识蒸馏方法,能够将现有的大规模Transformer模型高效地转换为计算成本更低的Mamba架构模型,在性能损失极小的前提下,实现模型推理的显著降本增效 [1][30][31] 行业背景与问题 - Transformer架构在过去十年主导了AI发展,但其计算成本随序列长度呈平方级增长,在处理长上下文时成本高昂 [2][3] - 行业寻求如线性注意力、RWKV、Mamba等线性复杂度模型作为替代方案,以实现更快、更省显存、推理更丝滑的目标,但这些模型在规模扩大后性能仍不及Transformer [4][5] 技术方案与路径 - 公司采用“两步走”策略,而非直接蒸馏,以避免性能崩塌 [7][9] - **第一步**:将Transformer中昂贵的Softmax Attention替换为一种通过学习特征映射(Hedgehog方法)实现的线性注意力,并通过余弦相似度蒸馏使其输出与原始Transformer对齐,形成一个“更便宜但还挺像Transformer”的中间模型 [11][12] - **第二步**:将已对齐的线性注意力结构嵌入到Mamba中,通过参数映射实现结构对齐,并额外添加归一化步骤以匹配原始Attention的输出形式,最后通过微调恢复Mamba自身的能力(如卷积和门控机制) [13][14][15] - 整套方法的关键在于先让两种模型在“表达方式”上对齐,再做结构转换,最后通过训练恢复能力 [16][17] 实验效果与性能 - 在1B参数规模的模型上,使用仅10B token(约为教师模型训练数据的2.7%)进行蒸馏,HedgeMamba的困惑度达到14.11,非常接近教师模型Pythia-1B的13.86,显著优于基线方法Hedgehog的14.89 [19][21] - 在下游任务(如Arc、PIQA、BoolQ、RACE、LogiQA等)上,HedgeMamba的表现全面超过基线,并逼近教师模型,表明其保留了相当的推理能力和语义结构 [22] - 直接一步蒸馏到Mamba会导致性能崩溃(困惑度炸到100以上),证明两阶段方法是必要的结构性条件 [22][23] 关键发现与洞察 - **架构关键**:消融实验表明,使Mamba性能提升的关键是门控机制,而非简单堆叠结构 [25][26] - **训练策略**:两阶段蒸馏中,数据分配明显偏向第二阶段(微调阶段)效果最优,说明中间表示仅是过渡,真正的能力迁移发生在后半段 [25][27] - **规模扩展性**:随着用于蒸馏的token数量从1B增加到10B,模型性能稳定提升,没有出现不收敛或震荡,表明该技术路线具备良好的规模化放大潜力 [25][28][29] 潜在影响与意义 - 该方法为将现有海量Transformer模型“转制”为更高效的形态提供了新的工程可能性,无需推倒重来 [30][31] - 若该技术能稳定复现,有望对整个开源模型生态及众多公司的自研模型进行降本重构 [32]