谷歌香蕉模型一夜登顶！干翻GPT-4o和FLUX，坐稳AI图像之王

产品发布与核心功能 - 谷歌推出最先进的图像生成和编辑模型Gemini 2.5 Flash Image 具备多图像混合、自然语言编辑和角色一致性能力 [2] - 模型支持将同一角色放置在不同环境中生成一致的品牌资产保留主题特征 [10] - 支持自然语言精准编辑包括模糊背景、去除污渍、删除人物、改变姿势、黑白照片上色等功能 [20] 技术性能与基准测试 - 在文生图和图像编辑两个场景均排名全球第一图像编辑榜单得分1362分较第二名领先幅度接近15% [7] - 在用户综合喜好度、人物、创造力、信息图、物体和环境生成上领先GPT-4o图像生成、Flux.1 Kontext等模型 [6] - 模型以"nano-banana"代号在大模型竞技场获得200多万票认可正式发布后文生图得分1147分图像编辑得分1362分 [6][7] 应用场景与用例 - 多图融合能力可用于电子商务场景生成产品宣传照和家具摆放效果例如将台灯拖拽到场景中自动开启灯光 [30] - 角色一致性功能支持生成历史年代写真例如将人物从50年代到00年代风格化转换保持面貌一致 [10] - 结合Veo 3视频生成模型可制作广告大片生成多角度镜头画面并转换为视频 [4][34] 产品定价与开发者支持 - 定价为30美元/100万个输出token 每张图像消耗1290个输出token 成本约0.039美元（折合人民币0.28元） [9] - 通过Gemini API、Google AI Studio和Vertex AI向开发者提供支持快速测试和部署应用 [9] - AI Studio更新"构建模式" 支持开发者利用AI打造应用程序并直接部署到GitHub [9] 技术特性与用户反馈 - 具备世界知识能力可理解手绘插图并解答问题预测图像变化场景（如气球破碎画面） [24][26] - 用户反馈显示其效果优于Midjourney 同样提示词可减少90%的调整时间 [32] - 存在严格内容审查限制例如无法生成人物持刀斧等画面 [34]