Nano-Banana核心团队首次揭秘，全球最火的 AI 生图工具是怎么打造的

模型技术特点 - Nano banana实现图像生成和编辑功能的巨大质量飞跃生成速度快能理解模糊和口语化指令并在多轮编辑中保持角色和场景一致性效果更自然 [6] - 模型具备原生多模态能力特别是交错式生成功能可像人类一样分步骤处理复杂指令联系上下文进行创作而非一次性生成所有内容 [6][20][21] - 文本渲染能力提升成为评估图像生成效果的有效指标当模型能生成有结构文字时也能更好学习图像中的结构 [13][15][18] - 每个图像生成仅需13秒支持快速迭代创作用户可快速重新生成并修改提示词 [30][31] - 交错生成带来全新范式可将复杂提示拆解为多个步骤通过增量生成方式构建复杂图像 [32][34][35] 模型能力比较 - Imagen模型定位专业文本生成图像在成本和响应速度上高效适合需要快速生成高质量图像的场景 [36][37] - Nano banana作为多模态创意伙伴适合多轮编辑和创意探索等复杂工作流具备世界知识理解能力 [6][36][39] - 原生图像生成模型可插入图像作为参考在理解提示词意图方面表现更出色 [40][42] 团队协作与改进 - 结合Gemini团队的世界知识与指令遵循能力以及Imagen团队的图像美学追求实现技术融合 [3][49] - 通过收集用户反馈构建基准数据集持续跟踪常见失败模式并改进模型表现 [43][45] - Imagen团队贡献了自然美观的审美判断显著改善图像生成质量 [49] 应用场景 - 支持像素级精确编辑可只改动图像中特定元素而保持其他部分不变 [27][29] - 可实现角色多角度渲染和场景重构将物体放入完全不同的新场景中进行真实融合 [46] - 适用于广告设计室内装饰角色设定等多种创意场景 [26][27][40] 未来发展方向 - 未来目标不仅是提升视觉质量更追求模型智能性和事实准确性 [7][51][54] - 致力于打造能理解用户深层意图甚至超越用户提示词创造更好结果的聪明模型 [7][51] - 重点改进数据保真能力确保工作用图表和信息图既美观又准确 [54][57]