产品发布与核心功能 - 谷歌推出最先进的图像生成和编辑模型Gemini 2.5 Flash Image 具备多图像混合、自然语言编辑和角色一致性能力 [2] - 模型支持将同一角色放置在不同环境中 生成一致的品牌资产 保留主题特征 [10] - 支持自然语言精准编辑 包括模糊背景、去除污渍、删除人物、改变姿势、黑白照片上色等功能 [20] 技术性能与基准测试 - 在文生图和图像编辑两个场景均排名全球第一 图像编辑榜单得分1362分 较第二名领先幅度接近15% [7] - 在用户综合喜好度、人物、创造力、信息图、物体和环境生成上领先GPT-4o图像生成、Flux.1 Kontext等模型 [6] - 模型以"nano-banana"代号在大模型竞技场获得200多万票认可 正式发布后文生图得分1147分 图像编辑得分1362分 [6][7] 应用场景与用例 - 多图融合能力可用于电子商务场景 生成产品宣传照和家具摆放效果 例如将台灯拖拽到场景中自动开启灯光 [30] - 角色一致性功能支持生成历史年代写真 例如将人物从50年代到00年代风格化转换 保持面貌一致 [10] - 结合Veo 3视频生成模型可制作广告大片 生成多角度镜头画面并转换为视频 [4][34] 产品定价与开发者支持 - 定价为30美元/100万个输出token 每张图像消耗1290个输出token 成本约0.039美元(折合人民币0.28元) [9] - 通过Gemini API、Google AI Studio和Vertex AI向开发者提供 支持快速测试和部署应用 [9] - AI Studio更新"构建模式" 支持开发者利用AI打造应用程序并直接部署到GitHub [9] 技术特性与用户反馈 - 具备世界知识能力 可理解手绘插图并解答问题 预测图像变化场景(如气球破碎画面) [24][26] - 用户反馈显示其效果优于Midjourney 同样提示词可减少90%的调整时间 [32] - 存在严格内容审查限制 例如无法生成人物持刀斧等画面 [34]
谷歌香蕉模型一夜登顶!干翻GPT-4o和FLUX,坐稳AI图像之王