苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理
AI前线·2025-06-10 18:05
整理 | 华卫、核子可乐 在今年的 WWDC 全球开发者大会上,苹果推出新一代专为增强 Apple Intelligence 功能所开发的语 言基座模型。经过优化的最新基座模型可在苹果芯片上高效运行,包括一个约 3B 参数的紧凑型模型 和一个基于服务器的混合专家模型,后者为专门针对私有云量身定制的全新架构。 这两大基座模型,均隶属于苹果为支持用户而打造的生成式模型家族。这些模型改进了工具使用与推 理能力,可以理解图像与文本输入,速度更快、效率更高,而且能够支持 15 种语言及平台中集成的 各种智能功能。 据介绍,苹果通过开发新的模型架构来提高这两个模型的效率。对于设备端模型,将整个模型按 5: 3 的深度比分为两块。块 2 中的所有键值(KV)缓存都直接与块 1 最后一层生成的缓存共享,由此 将键值缓存的内存占用量降低了 38.5%,同时显著改善了首个 token 生成时间(time-to-first- token)。 苹果还引入并行轨道专家混合 (PT-MoE) 设计,为服务器端模型开发出一套新架构。此模型由多 个较小的 Transformer(即「轨道」)组成,它们独立处理各 token,仅在各轨道块的输 ...