Workflow
苹果AI选Mamba:Agent任务比Transformer更好
苹果苹果(US:AAPL) 量子位·2025-10-21 13:41

文章核心观点 - 苹果公司最新研究发现,在长任务、多交互的Agent场景中,基于状态空间模型(SSM)的Mamba模型,在结合外部工具后,其效率与泛化能力展现出超越Transformer架构的潜力 [1] Transformer架构的局限性 - Transformer依赖自注意力机制,计算量随输入序列长度增加呈平方级增长,例如处理1000个词需计算100万次词对关系,处理上万词的长文档计算量达亿级,对GPU造成较大负担 [3][4][5] - 高计算成本导致处理延迟显著增加,在需要动态决策与迭代优化的Agent任务中表现不佳,因每一步都需重新计算全局注意力,整体效率偏低 [12] - 在需要反复调整的Agent式任务中,Transformer显得又贵又笨重 [18] Mamba架构的优势与局限 - Mamba作为状态空间模型,不依赖全局注意力,通过持续更新的内部状态理解信息,计算量随序列长度仅呈线性增长,例如处理1000个词仅需对应数量级计算 [6][7][13] - Mamba支持流式处理,可边接收输入边计算,且内存占用稳定,不会随序列长度显著上升,效率突出 [13] - Mamba的局限在于内部状态存储容量有限,处理超长序列时早期信息易被后续输入覆盖,导致对前文关键信息保留能力较弱 [9] “Mamba+工具”方案的性能表现 - 苹果团队提出通过引入外部工具(如指针工具、文件查看工具、运行工具)来扩展Mamba的信息处理能力,相当于为模型提供可动态调用的外部存储和交互接口 [10][11] - 在多位数加法任务中,配备指针工具的Mamba经5位数训练后能稳定处理1000位数计算,准确率近100%,而Transformer处理20位数时已出现明显误差 [15] - 在代码调试任务中,Mamba模拟交互式调试流程,面对高于训练集复杂度的代码库,其正确率显著高于Transformer [15] - 在逻辑推理及汉诺塔等分步规划任务中,结合工具的Mamba能应对更复杂场景,Transformer则计算缓慢或卡壳 [15] - “Mamba+工具”组合补足了Mamba的记忆短板,在Agent场景下反应快且效率提升显著 [16]