苹果AI选Mamba：Agent任务比Transformer更好

文章核心观点 - 苹果公司最新研究发现，在长任务、多交互的Agent场景中，基于状态空间模型（SSM）的Mamba模型，在结合外部工具后，其效率与泛化能力展现出超越Transformer架构的潜力 [1] Transformer架构的局限性 - Transformer依赖自注意力机制，计算量随输入序列长度增加呈平方级增长，例如处理1000个词需计算100万次词对关系，处理上万词的长文档计算量达亿级，对GPU造成较大负担 [3][4][5] - 高计算成本导致处理延迟显著增加，在需要动态决策与迭代优化的Agent任务中表现不佳，因每一步都需重新计算全局注意力，整体效率偏低 [12] - 在需要反复调整的Agent式任务中，Transformer显得又贵又笨重 [18] Mamba架构的优势与局限 - Mamba作为状态空间模型，不依赖全局注意力，通过持续更新的内部状态理解信息，计算量随序列长度仅呈线性增长，例如处理1000个词仅需对应数量级计算 [6][7][13] - Mamba支持流式处理，可边接收输入边计算，且内存占用稳定，不会随序列长度显著上升，效率突出 [13] - Mamba的局限在于内部状态存储容量有限，处理超长序列时早期信息易被后续输入覆盖，导致对前文关键信息保留能力较弱 [9] “Mamba+工具”方案的性能表现 - 苹果团队提出通过引入外部工具（如指针工具、文件查看工具、运行工具）来扩展Mamba的信息处理能力，相当于为模型提供可动态调用的外部存储和交互接口 [10][11] - 在多位数加法任务中，配备指针工具的Mamba经5位数训练后能稳定处理1000位数计算，准确率近100%，而Transformer处理20位数时已出现明显误差 [15] - 在代码调试任务中，Mamba模拟交互式调试流程，面对高于训练集复杂度的代码库，其正确率显著高于Transformer [15] - 在逻辑推理及汉诺塔等分步规划任务中，结合工具的Mamba能应对更复杂场景，Transformer则计算缓慢或卡壳 [15] - “Mamba+工具”组合补足了Mamba的记忆短板，在Agent场景下反应快且效率提升显著 [16]