苹果发布多模态AI模型Manzano，实现“看图”与“绘图”高效融合

公司技术发布 - 苹果公司近日发表研究论文，正式推出名为“Manzano”的多模态人工智能模型 [1] - 该模型创新性地实现了“视觉理解”与“文本生成图像”两大核心功能的接近无损融合 [1] - 模型通过创新的三段式架构破解了兼顾图像理解与图像生成的技术难题 [3] 技术架构与原理 - 模型首先由“混合视觉分词器”同步生成连续与离散两种视觉表示，满足不同任务需求 [3] - 随后借助大语言模型精准预测图像语义内容，确保对指令的准确把握 [3] - 最后由“扩散解码器”完成像素级渲染，保障生成图像的高质量 [3] - 该架构设计让模型在保留强大视觉理解能力的同时，具备了精细的图像生成能力 [3] 模型性能表现 - 在处理“一只鸟在大象下方飞翔”这类反直觉复杂指令时，Manzano的逻辑准确性与OpenAI的GPT-4o、谷歌的Nano Banana等主流模型不相上下 [3] - 研究团队对3亿至300亿参数的不同版本模型进行了测试 [3] - 证实该架构在模型规模扩大过程中，能够持续保持高效的性能提升 [3] 应用潜力与行业影响 - 该模型还能胜任深度估计、风格迁移、图像修复等复杂任务 [3] - 目前模型仍处于研究阶段，尚未直接应用于iPhone、Mac等终端设备 [4] - 业内推测，该技术未来有望整合进苹果“图乐园Image Playground”功能 [4] - 可为用户带来更智能的修图体验和更具想象力的图像生成服务 [4] - 此举有望进一步巩固苹果在端侧AI领域的竞争优势 [4] - 推动多模态AI技术在消费级场景的深度应用 [4]