交错式生成

搜索文档
Nano-Banana核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的
36氪· 2025-09-02 09:29
模型技术特点 - Nano banana实现图像生成和编辑功能的巨大质量飞跃 生成速度快 能理解模糊和口语化指令 并在多轮编辑中保持角色和场景一致性 效果更自然 [6] - 模型具备原生多模态能力 特别是交错式生成功能 可像人类一样分步骤处理复杂指令 联系上下文进行创作 而非一次性生成所有内容 [6][20][21] - 文本渲染能力提升成为评估图像生成效果的有效指标 当模型能生成有结构文字时 也能更好学习图像中的结构 [13][15][18] - 每个图像生成仅需13秒 支持快速迭代创作 用户可快速重新生成并修改提示词 [30][31] - 交错生成带来全新范式 可将复杂提示拆解为多个步骤 通过增量生成方式构建复杂图像 [32][34][35] 模型能力比较 - Imagen模型定位专业文本生成图像 在成本和响应速度上高效 适合需要快速生成高质量图像的场景 [36][37] - Nano banana作为多模态创意伙伴 适合多轮编辑和创意探索等复杂工作流 具备世界知识理解能力 [6][36][39] - 原生图像生成模型可插入图像作为参考 在理解提示词意图方面表现更出色 [40][42] 团队协作与改进 - 结合Gemini团队的世界知识与指令遵循能力 以及Imagen团队的图像美学追求 实现技术融合 [3][49] - 通过收集用户反馈构建基准数据集 持续跟踪常见失败模式并改进模型表现 [43][45] - Imagen团队贡献了自然美观的审美判断 显著改善图像生成质量 [49] 应用场景 - 支持像素级精确编辑 可只改动图像中特定元素而保持其他部分不变 [27][29] - 可实现角色多角度渲染和场景重构 将物体放入完全不同的新场景中进行真实融合 [46] - 适用于广告设计 室内装饰 角色设定等多种创意场景 [26][27][40] 未来发展方向 - 未来目标不仅是提升视觉质量 更追求模型智能性和事实准确性 [7][51][54] - 致力于打造能理解用户深层意图 甚至超越用户提示词创造更好结果的聪明模型 [7][51] - 重点改进数据保真能力 确保工作用图表和信息图既美观又准确 [54][57]
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
猿大侠· 2025-08-31 12:11
模型发布与市场反响 - 谷歌匿名发布的图像编辑模型nano-banana在LMArena平台突然爆火后由官方确认为Gemini 2 5 Flash Image模型[5][7][8] - 该模型在国内外社交平台引发大规模试玩热潮 尤其在手办生成领域形成刷屏现象[2][4][9] 核心功能与技术特性 - 支持通过文本提示词生成1/7比例写实风格手办 需指定亚克力底座 电脑屏幕显示ZBrush建模过程及TAMIYA风格包装盒等细节[10][11] - 采用原生多模态架构 实现图像理解与生成的深度整合 通过交错式生成技术支持多轮复杂编辑 可分解包含50个编辑要求的任务[61][63][64] - 创新性使用文本渲染作为核心评估指标 该指标具备客观可量化特性 能持续指引模型改进并带来意外性能提升[55][56][58][59] 实际应用表现 - 能够识别动漫角色名称(如艾伦耶格尔)并生成对应手办 对非全身像参考图可能产生局部异常但整体效果逼真[13][15][16] - 支持宠物照片转手办 生成效果引发用户主动寻求购买链接 并可结合3D打印实现实体化[18][20][21] - 真人照片需使用全身图生成 包括动态姿势 需额外提示词添加支撑结构防止模型漂浮[24][26][28][29] 多元化应用场景 - 支持三图联合创作 通过姿态控制实现角色互动(如搭肩比心 战斗动作)[33][44][46] - 可生成漫展场景下的真人化二次元角色 效果接近真实cosplayer生图[41][42][48][51] - 结合视频生成模型创作连贯动画 仅需火柴人草图即可驱动完整动作[36][37] 模型优化路径 - 团队通过社交平台系统性收集用户失败案例构建评估基准 新版本需通过真实场景测试[65][66] - 针对Imagen 2 0存在的像素级编辑偏差 角色一致性不足及图像质感不自然等问题进行专项优化[68][69][70] 生态建设与访问方式 - 谷歌计划举办为期2天的Nano Banana Hackathon活动 提供免费API额度及奖品激励[72][73] - 模型可通过AI Studio Gemini API或直接集成至Gemini使用 支持中文提示词但建议英文以降低错误率[11][73][75]
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
量子位· 2025-08-29 12:21
不圆 一水 发自 凹非寺 量子位 | 公众号 QbitAI 小某书最新起号方式,还得看AI(doge)。 这两天打开一看,几乎全被各种精致逼真的手办图刷屏了: 而且仔细一扒,甭管是AI圈、二次元圈还是骑行圈等等,感觉大家一下子都在玩。 so,发生了啥?到底是什么引得大家如此动作一致? 时刻游走在吃瓜第一线的量子位赶紧去瞧了瞧,结果发现,这不是最近爆火的图像编辑模型 nano-banana 嘛。 直到两天之前,谷歌才终于站出来认领了该模型,并表示其真身为 Gemini 2.5 Flash Image 。 而随着nano-banana揭开神秘面纱,国内外网友更是掀起了一波疯狂试玩的热潮,其中 手办 尤其受到大家的青睐。 所以,如何用nano-banana生成同款手办?提示词该怎么写? 量子位手把手教程这就奉上—— 实测爆火手办玩法 不卖关子,先看看网上爆火的生成"真实手办"的提示词。 这个模型起初在LMArena平台匿名出现,后来因生图表现太好突然爆火,继而引得无数网友猜测其归属。 Use the nano-banana model to create a 1/7 scale model, in a realis ...