iPhone本地跑Gemma 4火了，0 token时代还有多远？

Gemma 4模型的技术特点与性能 - 谷歌开源的新模型Gemma 4采用了与Gemini 3同源的技术架构，支持原生全模态，在Arena AI排行榜上位列全球第三 [1][3] - 模型提供多个型号，其中较小的型号如E2B（有效参数2.3B）和E4B（有效参数4.5B）可直接部署在手机端本地运行，上下文窗口达到128K [3] - 在苹果芯片手机上，通过针对优化的MLX框架，模型的推理速度可以超过40 token/秒 [5] - 在三星Galaxy等设备上也能跑出类似的高速，即使在开启思考模式的情况下 [6] 端侧AI模型的应用潜力与影响 - 模型在手机端的高运行速度（超过40 token/秒）使得手机端运行AI模型成为未来可接受的选项，尤其在医疗等敏感场景中非常有用 [5][6][8] - 128k的上下文窗口增强了这些小模型在移动端的吸引力 [9] - 用户可通过谷歌官方App“Google AI Edge Gallery”轻松在手机上下载并运行模型，降低了使用门槛 [11] - 端侧模型的发展趋势可能使大量的日常查询、聊天、简单推理、代码生成、图像理解任务实现本地运行，无需购买token，这可能冲击依赖售卖token或API订阅的商业模式 [20][24] 当前模型的局限性 - 在更强的硬件（如M5 Pro版MacBook Pro）上运行更大的Gemma 4 Mixture-of-Experts 26B模型时，直接对话和文本生成、代码解释表现顺畅 [13][15] - 但当将其作为coding agent处理需要大上下文（256k窗口）、复杂prompt和稳定工具调用的任务时，模型经常出现卡住、报错或输出结构错误的问题 [16] - 与专门优化的模型（如qwen3-coder）相比，Gemma 4在工具调用和结构化输出方面可能优化不足，导致其在多步任务执行上存在差距 [17] - 有观点认为Gemma 4在智力水平上仍显不足 [19] 行业竞争格局与未来展望 - 当前开源模型与最前沿的闭源模型之间仍存在差距，大部分能打的开源模型受硬件能力限制，暂时无法在端侧达到可用级别，这为提供云端推理服务的公司提供了缓冲期 [22][23] - 短期来看，云端闭源模型在最前沿的复杂推理和超大规模多代理协作上依然保持领先 [23] - 长期趋势是，随着硬件进步和量化技术优化，端侧模型将逐步蚕食云端的高频简单任务 [23] - 依赖售卖token和API订阅的厂商将被迫更专注于卷“真正难啃”的部分，如超强Agent、超长可靠上下文以及需要海量实时数据的专有能力 [24] - Gemma 4仅是一个开始，未来端侧模型可能发展到让用户感觉不到本地与云端区别的程度，届时将引发整个AI产业商业模式的洗牌 [24]