Google AI Studio

搜索文档
谷歌偷偷搞了个神秘模型Nano-Banana?实测:强到离谱,但有3大硬伤
机器之心· 2025-08-26 16:53
模型背景与推测 - 神秘AI模型Nano-Banana在LMArena平台Battle模式中被发现 但未公开列出且无官方开发者认领[2][3] - 社区推测其可能为谷歌研究模型 依据包括谷歌AI Studio产品负责人发布香蕉表情符号及DeepMind产品经理发布相关艺术作品[4][5][6][7] - 其他佐证包括谷歌曾将较小模型称为"Nano" 且生成图像质感与Imagen或Gemini系列相似[10] 技术能力与表现 - 模型在文本编辑、风格融合和场景理解方面表现优异 支持上传两张图片并输入提示词融合元素[8] - 能精准理解复杂文本提示 例如将横放书籍立起并添加书挡摆放到柜子上[9] - 在商业场景如产品照片、广告中表现稳定 能保留复杂细节如刺绣图案并保持光线视角一致性[13][15] - 存在局限性:可能产生反射、光照逻辑或物体位置不一致问题 人物手指偶现畸形 书籍文字可能出现乱码[20] 使用体验与比较 - 目前仅能通过LMArena平台随机体验 无官方API或正式官网链接 导致体验不稳定[22][23] - 文生图测试中生成图像更符合提示词细节(如化妆师背景道具) 人物动作服装更自然且手部无瑕疵 对比ChatGPT生成效果更优[29][30] - 图片编辑功能可无缝添加元素 如将类人机器人融入公园环境且毫无违和感[33][34] - 支持复杂指令如逆向工程描绘摄影创作过程 生成场景搭建图像[36] - 在人物融合任务中表现优于Gemini 2.0 flash 但细节处理仍有瑕疵(如手指变形)[43][44][45] 创新应用案例 - 与谷歌Veo3结合可制作长视频 例如提取视频帧后生成下一场景并用Veo3动画化[47][48][49] - 可将插画转化为手办模型 生成图像保留五官细节且真实感强 再通过Veo3制作展示视频[51][55][56] - 谷歌Veo3近期免费开放体验 普通用户每日可生成3个8秒视频片段 Pro和Ultra订阅用户分别有3个和10个配额[61][62]