技术方案与实现 - 通过将大模型推理的Prefill(预填充)和Decode(解码)两个阶段分离,分别分配给擅长不同硬件性能的设备来处理,即PD分离[7][8][11] - Prefill阶段计算量巨大,更依赖算力,而Decode阶段主要受内存带宽限制,DGX Spark拥有100TFLOPS的fp16算力但内存带宽仅273GB/s,M3 Ultra算力为26TFLOPS但内存带宽高达819GB/s,两者优势互补[9][11] - 采用流式传输技术解决KV缓存传输的通信延迟问题,使KV缓存可以逐层传输,实现通信与计算的并行重叠,从而提升整体效率[15][16] 性能提升效果 - 在Llama-3.1 8B模型上,该混合方案使Prefill阶段速度提升至单用M3 Ultra Mac Studio的3.79倍,Decode速度提升至单用DGX Spark的3.37倍[18] - 整体推理速度提升至单用M3 Ultra Mac Studio的2.77倍,总处理时间从6.42秒缩短至2.32秒[18][19] - 该性能优化通过EXO框架自动实现,框架能自动发现并分析连接设备的计算吞吐量、内存带宽等特性,并自动规划任务分配与传输策略[17][18] 行业趋势与背景 - PD分离的架构思路得到行业领先公司的验证,英伟达即将推出的Rubin CPX平台也采用类似设计,使用不同特性的处理器分别处理Prefill和Decode阶段[20] - 该方案由GitHub拥有三万星的EXO Lab团队开发,该团队专注于研究在消费级设备上部署大模型的分布式推理框架[3][4] - 苹果最新M5芯片在MacBook Pro上首个Token生成速度(受Prefill影响)较M1提升6.4倍,较M4提升3.55倍,但M3 Ultra在特定架构下仍显示出较高价值[27][30]
技能英伟达桌面超算,加入苹果Mac Studio快爆了:推理速度飙升至277%