Workflow
基座模型框架
icon
搜索文档
苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理
AI前线· 2025-06-10 18:05
苹果新一代基座模型发布 - 推出两大基座模型:3B参数的紧凑型设备端模型和服务器端混合专家模型,均针对苹果芯片优化,支持15种语言及多模态输入[1] - 设备端模型通过5:3深度比分割和KV缓存共享技术,降低38.5%内存占用并改善首token生成速度[6] - 服务器端采用PT-MoE架构,通过独立轨道处理token减少同步开销,实现高效扩展[7] 模型架构创新 - 引入交错注意力架构结合RoPE和NoPE,提升长上下文处理能力并减少键值缓存大小[8] - 视觉系统采用1B参数ViT-g服务器模型和300M参数ViTDet-L设备模型,新增寄存器窗口机制增强全局/局部特征捕捉[12] - 量化技术实现设备端2-bpw和服务端3.56-bpw压缩,嵌入表统一4-bit量化,通过适配器恢复质量损失[17][18] 性能表现 - 设备端模型在所有语言环境超越Qwen-2.5-3B,英语环境媲美Qwen-3-4B和Gemma-3-4B[8] - 服务器端模型优于Llama-4-Scout,但落后于Qwen-3-235B和GPT-4o[8] - 视觉任务评估显示设备端模型优于InternVL-2.5-4B和Qwen-2.5-VL-3B,与Gemma-3-4B相当[10] 训练优化 - 分阶段预训练:文本模态阶段采用蒸馏损失降低90%训练成本,视觉阶段联合训练编码器[14] - 持续预训练整合合成数据提升代码/数学能力,多模态自适应保持文本能力[16] - RLHF技术带来16:9的人类评估优势比例,显著超越SFT效果[16] 开发者生态 - 推出基座模型框架,支持Swift语言三行代码接入3B设备端模型,内置文本摘要/实体提取等功能[20] - 框架支持工具调用和引导式生成,Automattic等厂商已应用于日记类产品开发[21] - 测试版通过Apple Developer Program提供,公开测试版将于下月上线[22]