HedgeMamba - 财报，业绩电话会，研报，新闻

HedgeMamba

搜索文档

机器之心· 2026-04-22 11:34

文章核心观点 - 苹果公司提出了一种名为“HedgeMamba”的两阶段知识蒸馏方法，能够将现有的大规模Transformer模型高效地转换为计算成本更低的Mamba架构模型，在性能损失极小的前提下，实现模型推理的显著降本增效 [1][30][31] 行业背景与问题 - Transformer架构在过去十年主导了AI发展，但其计算成本随序列长度呈平方级增长，在处理长上下文时成本高昂 [2][3] - 行业寻求如线性注意力、RWKV、Mamba等线性复杂度模型作为替代方案，以实现更快、更省显存、推理更丝滑的目标，但这些模型在规模扩大后性能仍不及Transformer [4][5] 技术方案与路径 - 公司采用“两步走”策略，而非直接蒸馏，以避免性能崩塌 [7][9] - **第一步**：将Transformer中昂贵的Softmax Attention替换为一种通过学习特征映射（Hedgehog方法）实现的线性注意力，并通过余弦相似度蒸馏使其输出与原始Transformer对齐，形成一个“更便宜但还挺像Transformer”的中间模型 [11][12] - **第二步**：将已对齐的线性注意力结构嵌入到Mamba中，通过参数映射实现结构对齐，并额外添加归一化步骤以匹配原始Attention的输出形式，最后通过微调恢复Mamba自身的能力（如卷积和门控机制） [13][14][15] - 整套方法的关键在于先让两种模型在“表达方式”上对齐，再做结构转换，最后通过训练恢复能力 [16][17] 实验效果与性能 - 在1B参数规模的模型上，使用仅10B token（约为教师模型训练数据的2.7%）进行蒸馏，HedgeMamba的困惑度达到14.11，非常接近教师模型Pythia-1B的13.86，显著优于基线方法Hedgehog的14.89 [19][21] - 在下游任务（如Arc、PIQA、BoolQ、RACE、LogiQA等）上，HedgeMamba的表现全面超过基线，并逼近教师模型，表明其保留了相当的推理能力和语义结构 [22] - 直接一步蒸馏到Mamba会导致性能崩溃（困惑度炸到100以上），证明两阶段方法是必要的结构性条件 [22][23] 关键发现与洞察 - **架构关键**：消融实验表明，使Mamba性能提升的关键是门控机制，而非简单堆叠结构 [25][26] - **训练策略**：两阶段蒸馏中，数据分配明显偏向第二阶段（微调阶段）效果最优，说明中间表示仅是过渡，真正的能力迁移发生在后半段 [25][27] - **规模扩展性**：随着用于蒸馏的token数量从1B增加到10B，模型性能稳定提升，没有出现不收敛或震荡，表明该技术路线具备良好的规模化放大潜力 [25][28][29] 潜在影响与意义 - 该方法为将现有海量Transformer模型“转制”为更高效的形态提供了新的工程可能性，无需推倒重来 [30][31] - 若该技术能稳定复现，有望对整个开源模型生态及众多公司的自研模型进行降本重构 [32]