Workflow
Nano Banana 2突然现身!能画公式解数学题,监控画面都能伪造
量子位·2025-11-10 12:42

产品发布与市场热度 - Nano Banana 2代以预览版形式在第三方网站Media.io上亮相,展示后即被移除,仅少数用户参与测试 [4] - 产品亮相即引发广泛关注,其代号为GemPix2 [8] - 第一代产品于2025年8月匿名上线,凭借卓越能力迅速登顶行业排行榜,随后被谷歌正式揭晓为Gemini 2.5 Flash Image [19] 第二代产品核心能力升级 - 产品能力远超前代,在处理复杂提示方面表现突出,包括精确文本渲染、超逼真场景及完整桌面界面模拟 [5] - 主要升级方向集中在真实性、生成速度和自然交互控制 [8] - 能够生成极其复杂的用户界面,文字渲染无破绽,效果逼真如真实截图 [9] - 在遵循物理常识与提示词细节方面表现出色,例如可同时准确绘制指向特定时间的时钟和一杯斟满的红酒 [11][12] - 具备一定的世界知识与逻辑推理能力,在解决数学问题方面相比一代有显著进步,尽管仍有小错误但结果令人印象深刻 [16][17][18] - 预览版甚至能伪造逼真监控录像画面,但预计正式版会削弱此功能 [14] 第一代产品优势与市场表现 - 第一代核心优势在于强大的图像编辑与理解能力,包括自然语言编辑和出色的角色一致性 [22] - 基于谷歌TPU v5架构优化,平均响应时间仅为1.3秒,单张图片生成成本约0.039美元,仅为竞争对手DALL-E 3的十分之一 [24] - 上线不到10天,用户编辑了超过2亿张图片,为Gemini应用带来了1000万新用户,并一度帮助Gemini超越ChatGPT成为苹果免费应用榜首 [20] - 增加了多图像融合与风格迁移功能,支持将多张图片无缝融合或进行风格转换,提升了电商、广告等行业创作效率 [26] 公司战略与未来方向 - 公司核心团队认为图像生成质量已接近上限,未来关键在于提升模型理解用户“意图”的能力 [25] - 公司正加速将产品整合进核心生态,除Gemini应用和AI Studio外,已开始测试集成到Google Photos、搜索、智能镜头和画圈搜索中,旨在打造无缝的AI驱动视觉体验闭环 [25]