图像生成和编辑
搜索文档
顶级邪修再战 Nano Banana Pro ,超多玩法,太猛了这玩意!
歸藏的AI工具箱· 2025-11-21 01:30
刚才谷歌正式发布了,藏师傅第一时间上手探索了一下。 发现这玩意太diao了,直接把图片模型的能力推向了顶峰,尤其是支持中文,这个对我们来说太 重要了。 先来看官方的说的模型更新内容: 来了朋友们,前几天试了一下传说中的 Nano Banana Pro 模型,发现很厉害。 我们按他自己说的更新能力先测试一下,首先是世界知识和推理。 我们注意到这里有个实时知识,不知道是不是带搜索的。直接让他查找北京现在的天气生成一个 天气UI设计稿。 居然真是对的,就是北京现在的天气,太牛批了,可以看到他会先执行搜索然后在生成图片。 而且还有惊喜,你看北京图片的风景居然是秋天的长城,它太懂了,真的。 帮我搜索现在(20251120)北京的天气信息,并且将其放在一个天气UI设计稿中 基于增强的推理、世界知识和实时信息生成更准确、具上下文丰富性的视觉内容。 在图像中直接生成更好、更准确且易读的多语言文本,中文也可以而且很好。 可以混合比以往更多的元素,最多使用 14 张图片,并保持最多 5 位人物的一致性和相似性! 支持多种可用的纵横比以及可用的 2K 和 4K 分辨率 我们现在可以整一个玩法了,哈哈,直接让他帮我们给照片排版,比如 ...
谷歌偷偷搞了个神秘模型Nano-Banana?实测:强到离谱,但有3大硬伤
36氪· 2025-08-26 18:02
模型背景与推测 - 神秘AI模型Nano-Banana在LMArena平台被发现但未公开列出且无官方开发者认领[1] - 网友推测其可能为谷歌研究模型 依据包括谷歌AI产品负责人发布香蕉表情符号[1]及DeepMind产品经理发布胶带香蕉艺术作品图片[2] - 其他推测依据包括谷歌曾将较小模型称为"Nano"且生成图像质感与Imagen或Gemini系列相似[4] 功能特点与技术表现 - 模型在文本编辑、风格融合和场景理解方面表现优异 支持上传两张图片并输入提示词融合元素[5] - 能精准理解复杂文本提示 例如将横放书本立起并添加书挡摆放至柜子[5] - 编辑后图片保留复杂细节如刺绣图案 同时保持光线、视角和构图一致性[8] - 在产品照片、场景搭建及广告等商业场景中表现稳定[10] - 存在生成缺陷 包括反射/光照逻辑不一致、物体位置错误及人物手指畸形 书籍文字可能出现乱码[13] 访问方式与市场乱象 - 目前仅能通过LMArena平台Battle模式随机体验 无官方API或正式官网链接[16] - 体验不稳定需靠运气遇到该模型[16] - 出现多个假网站声称提供Nano-Banana服务 造成用户混淆[16] 实测性能对比 - 文生图测试中生成化妆师图像 背景包含眼影盘/指甲油等职业相关元素 人物动作服装自然且手部无瑕疵[19][20] - 对比ChatGPT生成结果背景单一且存在拇指虚化问题[20] - 图片编辑功能可添加类人机器人至公园场景并完美融入环境[25] - 逆向工程功能可还原摄影棚布景过程 包括模特玩手机、发型师整理头发及工作人员悬挂幕布等细节[27] - 人物融合测试中成功将马斯克与奥特曼生成自拍照 但奥特曼形象严重失真[31][33] - 在融合扎克伯格与马斯克至风景照测试中 模型将二人完美融入环境但手指细节存在瑕疵 Gemini 2.0 Flash则完全无法识别名人[35] 进阶应用与生态整合 - 可与谷歌Veo3结合生成长视频 例如提取视频帧后通过Nano-Banana生成新场景再经Veo3动画化[37] - 支持将插画转化为手办模型 生成结果保留五官细节且真实感强 无明显AI痕迹[38][43] - 结合Gemini 2.5 Pro视频功能可将生成图片转化为8秒视频 需约1分钟处理时间[46] - 谷歌Veo3目前向所有Gemini用户免费开放至8月24日 每日限生成3个8秒视频 普通情况下该功能仅限Pro/Ultra订阅用户使用[46]