文章核心观点 - DeepSeek开源的DSpark投机解码技术,在开源一周后即被工程师Abdur Rahim成功移植到苹果芯片平台,并命名为mlx-dspark[1] - 该移植版本在保持生成质量无损(输出与原始模型逐字节相同)的前提下,显著提升了特定大语言模型在Mac设备上的推理速度[4][5] - 该工作不仅实现了DSpark的苹果原生版本,还集成了另一项投机解码技术DFlash,使Mac设备能够根据任务类型(聊天或代码/数学)智能选择最优解码方案,从而获得更全面的性能提升[33][34] 技术实现与性能提升 - 移植版本mlx-dspark成功在苹果M4 Pro芯片上运行Gemma-4 12B和Qwen3-4B模型,并实现了显著的生成速度提升[2] - 具体性能数据:Gemma-4 12B的生成速度从18.4 tok/s提升至约30 tok/s,提速约1.6倍;Qwen3-4B从52.9 tok/s提升至约73 tok/s,提速约1.4倍[17] - 工程师通过将权重量化为4-bit、在MLX框架中重构验证流程,并针对苹果芯片的验证成本特点进行优化,实现了上述加速[14][15] - 该移植工作成功复现了原始论文中16%到18%的接受率提升[25] 质量保证与技术创新 - mlx-dspark不仅实现了常见的贪婪解码,还完整实现了原始论文中的温度采样方法,确保了输出与目标模型在相同温度下的精确分布完全一致,而非近似版本[19][21] - 通过测试发现,使用经过指令微调的目标模型版本,可使草稿模型生成的候选词通过核对的比例从47%提升至82%[22] - 工程师为DFlash技术增加了可调参数,允许在聊天场景中使用较短的有效块长度,以适配不同任务对解码策略的需求[33] 不同投机解码技术的对比与整合 - 文章对比了DSpark与DFlash两种投机解码技术在不同任务场景下的性能表现[30][31] - 在代码和数学任务上,DFlash(使用完整的16个token块)接受长度达到5.95至6.20,速度约36 tok/s,提速约2.1倍,性能超过DSpark[30] - 在开放聊天场景中,由于内容难以预测,DFlash的块填充率不足,接受长度仅在2.2-2.7左右,此时DSpark凭借其Markov尾部校正机制反而速度更快[31][32] - mlx-dspark在v0.0.3版本中正式整合了z-lab原版的DFlash,使用户可以在同一个工具包内根据任务类型自动或手动选择最佳解码方案[33][34]
DeepSeek新技术移植苹果芯片!Mac本地大模型加速60%