Workflow
Nano Banana(Gemini 2.5 Flash Image)
icon
搜索文档
Nano Banana团队谈AI产品和图像模型:最终希望各种模态能融合在一起
36氪· 2025-09-18 16:11
产品发布与市场表现 - 谷歌的Gemini 2.5 Flash Image模型以“Nano Banana”名义于8月26日匿名发布,其成功归功于实现了前所未有的“角色一致性”[1] - 该模型的流行带动谷歌Gemini应用下载量飙升,9月下载量环比增长45%,达到1260万次,远高于8月的870万次,并攀升至全球应用商店排行榜榜首[1] - 模型在LM Arena评估中表现突出,Elo分数达1362分,明显领先于其他图像模型,并获得超过250万次投票[11] - 模型发布后,其母公司Alphabet(GOOGUS)股价在8月26日至9月17日期间上涨19.56%[1] 技术优势与核心能力 - 模型的核心突破在于“角色一致性”,使用户能在新场景中看到自己或团队成员的形象,例如生成通缉海报、考古学家等个性化图片[5] - 模型具备强大的世界知识,几乎100%受益于底层语言模型的进步,用户无需再极其详细地描述需求,模型能理解意图并生成合理图像[12] - 模型能接受更复杂的、寻求帮助式的问题,例如用户可输入模糊需求(如重新装修房间但无具体主意),模型能结合世界知识给出配色方案等建议[6][7] - 在专业应用场景中,模型展现出强大潜力,如辅助视频制作的分镜规划、建筑设计的快速迭代以及网站设计的视觉预览,显著提升创意工作流程效率[21][22] 用户需求与产品策略 - 当前用户最普遍的需求包括支持1K以上的更高分辨率图像、透明背景支持以及更好的文本渲染能力[6] - 产品策略需同时兼顾专业用户和普通消费者,对于专业用户,需与Adobe等工具深度集成以实现像素级控制;对于普通用户,则通过预置用例、视觉引导和简化分享来提升易用性[14][22] - 解决普通用户的“空白画布”问题是一大挑战,公司通过社交分享、与创作者合作提供示例以及未来探索手势、语音等更自然的交互界面来改善体验[14][15][16] 模型评估与未来发展方向 - 模型评估结合了自动化评估(如利用语言模型智能评估生成内容)和人工“眼球评估”,同时高度重视LM Arena的用户真实反馈和X等社交平台上的社区意见[17][18] - 图像模型发展的下一个前沿是提升“事实性”维度的可靠性,使其能准确生成信息图等用于信息检索的场景,而不仅仅是创意工具[37] - 未来模型改进的重点在于扩大适用范围和提升最差情况下的输出质量,使模型在需要更多想象力、组合多概念的复杂提示下表现更稳定[27] - 行业认为当前处于AI图像发展的早期阶段,未来图像与视频生成技术将趋向统一,向“全能模型”方向发展,许多底层技术可相互借鉴和迁移[25][29][30]
深度体验谷歌Nano Banana后,我们发现了它的AB面
36氪· 2025-09-15 09:54
上线不到两周,谷歌旗下的Nano Banana已在全球生产超2亿张图片,亚太地区用户热情度居首。 这个图片编辑模型界的"新星",上个月在全球人工智能社区里还是一个不知出处的神秘代号。在AI模型匿名对战平台LMArena上,它以惊人的表现迅速登 顶排行榜,在处理复杂指令、保持角色连贯性和理解上下文细节方面的能力,轻松击败了包括OpenAI和Midjourney在内的所有知名对手。一时间,关 于"Nano Banana"究竟是何方神圣的猜测甚嚣尘上。 《智百道》认为,"Nano Banana"的问世,并非仅仅是图像模型的又一次迭代,它预示着谷歌正试图将AI转变为一个深度嵌入工作流程的"创意协作者", 意在打破当前市场上由Midjourney主导的艺术美学和由OpenAI主导的文本生产力工具之间的二元格局,开辟一条以"工作流"为核心的全新赛道。 01 重新定义"P图",像对话一样编辑现实 传统AI图像工具的交互模式,往往是"一问一答"式的,用户需要绞尽脑汁设计出完美的提示词(prompt),模型则一次性生成结果。后续的修改,无论是 通过Midjourney的"Vary"功能还是DALL-E的局部重绘,都感觉像是独立 ...
6000字复盘:Google AI变猛记——从 Nano Banna、Genie 3、Veo 3到Gemini 2.5的绝地反击
创业邦· 2025-09-04 11:37
文章核心观点 - Google在AI领域经历了从“追赶者”到“领跑者”的转变,其近期一系列突破性产品(如Gemini 2.5 Pro、Veo 3、Genie 3)标志着公司正将数十年的技术积累高效转化为产品力,重新确立了在行业中的领先地位 [7][8][28][67][95] 基础大语言模型:Gemini 2.5 Pro - Gemini 2.5 Pro在2025年3月于第三方评测平台LMSys Chatbot Arena登顶,其Elo评分一度超越GPT-4o和Claude 3 Opus等所有对手,实现了“屠榜” [13][14] - 该模型是史上首个同时制霸文本、视觉和Web开发三大榜单的模型,尤其在Web开发任务中能构建交互式网页应用,涵盖前端UI、功能交互和完整应用结构 [16] - 在专业领域,具备“深度思考”能力的Gemini模型于2025年国际数学奥林匹克竞赛(IMO)中以满分42分中的35分斩获金牌,解出6题中的5题,其推理能力与OpenAI实验性内部推理模型持平 [21][22] - Gemini 2.5 Pro的发布被视为Google在AI竞赛中的明确转折点,标志着其基础模型能力已重返并开始领跑业界第一梯队 [19][26][28] 多模态领域:图像与视频生成 - 在多模态领域,Google展现出“几乎绝对领先”的态势,其模型为原生多模态设计,能无缝处理文本、代码、图像、音频和视频 [30] - 图像模型Gemini 2.5 Flash Image(代号Nano Banana)在物体替换和图像编辑上表现出对视觉关系的深刻理解,能将13张输入图片融合成一张风格一致的完整图像 [38][40][41] - 视频生成模型Veo 3于2025年5月发布,突破了此前行业在视频时长、逻辑一致性和可控性方面的瓶颈,实现了高保真的视频与音频同步生成,标志着AI视频生成“走出无声电影时代” [45][47][50] - 根据风投机构a16z 2025年8月的报告,在生成式AI消费应用排行榜中,Gemini的用户活跃度在网页端和移动端均已升至第二位,仅次于ChatGPT [52] 世界模型:Genie 3 - Genie 3作为“通用世界模型”,能通过文本提示词生成可探索、可操控的3D虚拟世界,支持720p分辨率和24 FPS实时渲染,并维持数分钟的一致性互动体验,被称为“有史以来最先进的世界模拟器” [55][56][57][59] - 该技术的革命性在于能为训练更通用的AI Agent创造无穷无尽的虚拟训练环境,将彻底改变游戏开发、影视制作流程,并为实现适应复杂物理世界的通用AI打下基础 [60][62] - Genie 3的进展被视为Google在通向AGI(通用人工智能)路径上先人一步拿下的又一个关键“旗子” [66][67] 组织架构与战略转变 - 为应对竞争,Google于2023年4月将原Google Brain团队与DeepMind团队合并,组建全新的Google DeepMind部门,由Demis Hassabis出任CEO,旨在集中优势力量,加速AI科研成果产品化 [70][73] - 内部创新平台Google Labs被重新启用,其地位提升为“AI创新基因库”,通过一套完整的方法论鼓励内部团队快速验证“异想天开”的AI项目,并打通从原型到产品的最短路径 [74][76][78] - 公司人才策略转变,竭力防止关键人才流失,例如为核心研究者提供高达每年2000万美元的薪酬方案,并缩短股权归属周期至3年 [86][87] - CEO Sundar Pichai多次强调公司是“AI-first”,打破旧有部门墙,推动跨部门深度协作,将最优秀的工程师和最大规模的计算资源优先供给核心AI项目,使Google DeepMind从“研究实验室”转型为“AI产品工厂” [89][90]