Workflow
大语言模型推理
icon
搜索文档
不可思议!400B大模型在iPhone上跑起来了
机器之心· 2026-05-01 18:00
文章核心观点 - 一项名为Flash-MoE的开源项目成功在消费级硬件(包括iPhone 17 Pro)上运行了参数规模高达3970亿(400B)的MoE大模型,这标志着端侧大模型推理技术取得了突破性进展,尽管其运行速度较慢[1][2][3][21] 技术实现与项目概述 - 项目名为“Flash-MoE:在 Apple Silicon 上运行的 Qwen3.5-397B-A17B”,是一个开源项目,其引擎由Daniel Woods与Claude Code 4.6共同开发[5] - 该技术摒弃了PyTorch等现代AI框架,完全使用Objective-C和C编写,实现了零Python依赖,并手写了定制的Metal Shader来构建GPU流水线[16] - 核心创新在于通过将模型权重存储在闪存(SSD)中并按需流式加载到DRAM,解决了在DRAM容量不足的情况下运行超大模型的问题,其灵感来源于苹果公司的研究论文《LLM in a flash》[12][13][15][17] 性能表现与关键数据 - 在iPhone 17 Pro的A19 Pro芯片上,该3970亿参数模型运行速度约为每秒0.6个token(0.6 tok/s)[3] - 在Apple M3 Max芯片上,该模型实现了每秒5.74个token(5.74 tok/s)的持续速度和超过7 tok/s的峰值速度[9] - 模型总体积为209 GB,经过2-bit专家量化后为120 GB,在任何时刻仅有5.5 GB的权重驻留在内存中[7] - 通过移除应用层缓存、完全交由系统页面缓存管理的“反直觉缓存策略”,实现了38%的速度提升[9] - 该项目利用Grand Central Dispatch并发读取,在M3 Max上压榨出的SSD顺序读取速度约为每秒17.5 GB(17.5 GB/s)[16] 技术创新点 - 采用了融合三指令缓存(Three-command-buffer)的GPU流水线设计,消除了CPU与GPU之间的同步开销[8] - 应用了BLAS加速的线性注意力机制,用于Gated-DeltaNet层[9] - 利用了MoE(混合专家)模型中只有部分“活跃专家”被激活的特性,这是让参数量远超设备DRAM容量的模型得以运行的关键[18] - 该研究首次证明,在消费级硬件上,模型规模超过DRAM容量4倍以上仍能以交互级速度运行[9] 行业意义与影响 - 该工作标志着“端侧大模型”进入了一个极具突破性的新阶段,为在内存有限的移动设备(如iPhone)上部署超大规模模型提供了可行的技术路径[5][21] - 其核心方法“将SSD当作内存用”的思路,与当年英特尔傲腾(Optane)技术的逻辑类似,为解决大模型推理的内存瓶颈问题提供了新方向[12] - 尽管在iPhone上运行速度慢且不完整,但这一实践向“人手一个本地大模型”的愿景迈出了重要一步[21]