Workflow
AI图像生成
icon
搜索文档
藏师傅用 Nano Banana Pro 帮你想去哪就去哪
歸藏的AI工具箱· 2025-11-25 20:59
产品核心功能 - 基于Nano Banana Pro的实时检索能力,通过输入经纬度可直接生成对应地点的照片,并整合当前位置的实时时间和天气信息以增强场景真实性[1][2] - 产品具备两种主要图像生成模式:Scenery风景模式仅生成当前位置的实时风景照,Travel Portrait人像打卡模式支持用户上传个人或合照,生成结合当地实时时间、天气和温度的个性化打卡照片,系统会根据气温自动调整人物着装[8][13][15][17][18] - 特色功能包括时间机器(Time Machine),可模拟生成任意历史或未来年代(如公元1000年的伊斯坦布尔)的打卡照,以及平行宇宙模式,支持输入影视作品名称或风格(如黑客帝国)生成对应主题图像[20][21] - 恶搞模式(Prank Mode)可在生成的图像中添加意外元素,例如在外景中插入外星人等趣味内容[23] 技术实现与平台支持 - 产品通过AI Studio的Build模式快速开发完成,目前提供官网(https://bananacamera.trickle.host/)支持地址搜索或地图点击触发图像生成[4][7][8] - 多平台接入方式包括:AI Studio(功能最全但需付费API Key)、Poe(消耗订阅积分,当前Nano Banana Pro模型可能存在繁忙问题)、Youware(支持免费试用但使用普通模型,中文生成效果可能受限)[30] - 底层技术依赖Nano Banana Pro的实时数据检索能力,用户可通过替换提示词中的经纬度(例如40.00023661635351, 116.27808154448789)自定义生成目标地点的图像[31] 应用场景与潜力 - 产品可模拟全球任意地点(如太平洋中央、南极冰盖、珠穆朗玛峰)的虚拟打卡,突破物理限制[26] - 时间机器与风格自定义功能允许用户通过组合提示词元素生成多样化结果,例如基于历史建筑风格或影视主题的创意图像[20][21][25] - 官网提供预设地址示例,用户上传照片后可快速生成打卡照,降低操作门槛[28]
Nano Banana新玩法无限套娃,“GPT-5都不会处理这种级别的递归”
36氪· 2025-11-25 13:54
产品性能与用户反馈 - Nano Banana Pro(推测为Gemini 3的图像生成功能)在理解复杂递归提示词方面表现突出,能够生成包含细节如老式显示器光晕、画布颜料溅落和相机时间戳的图像,获得专业提示工程师Riley Goodside的高度评价[3] - 产品对提示词中规定的背景和拍摄视角理解到位,用户生成的结果有成功案例[7],但也存在不完美的套娃结果和细节错误[8][9][14] - 图像生成机制并非基于现有图片素材的拼接,而是对每个看似相同的部分分别进行随机噪声生成[15] 市场份额与用户获取 - Gemini在Gemini 3发布后市场份额迅速提升,根据SimilarWeb统计,其桌面和移动网页浏览量市场份额从23%提升至30%,增幅达7个百分点[16][19] - 市场份额快速增长的可持续性存疑,数据显示ChatGPT的用户忠诚度约为82%,而Gemini为49%,新增用户可能包含大量一时兴起的边缘用户[19] 高端用户评价与使用场景 - Salesforce的CEO Marc Benioff在使用了Gemini 3两小时后,宣布从持续使用3年的ChatGPT转向Gemini,并高度评价其推理能力、速度及多模态(图像、视频)功能的飞跃[22] - 部分用户形成AI工具组合使用习惯,例如使用Claude进行编程和写作,而将Gemini应用于深度研究、搜索、学习、设计和多媒体内容生成等场景[23]
计算机行业重大事项点评:Google: Nano Banana Pro引领行业范式转移
华创证券· 2025-11-24 22:42
行业投资评级 - 计算机行业投资评级为“推荐”(维持)[2] 核心观点 - Google发布基于Gemini 3构建的Nano Banana Pro,标志着多模态AI正向专业化、商业化应用迈进[6] - Nano Banana Pro在图像质量、文本渲染和专业级控制方面实现显著突破,支持高达4K分辨率输出[6] - 该技术通过谷歌Workspace、Google Ads和Adobe Creative Cloud等平台向企业和创意工作者渗透,显示AI从消费级工具向专业工作流深度整合的战略方向[6] - 谷歌通过将Gemini 3 Pro的推理能力、Veo 3视频模型及谷歌搜索深度融合,构建生态优势,可能定义下一代AI创作工具的竞争范式[6] 产品技术突破 - Nano Banana Pro在角色一致性方面表现卓越,可同时处理最多14张参考图像,并保持最多5个人物角色的一致性[6] - 模型具备多语言文本渲染能力,能直接生成包含准确标语、段落的多语言视觉材料,解决AI图像生成中文字处理的痛点[6] - 提供精细的编辑控制选项,包括调整光照、相机角度、景深和纵横比等专业参数,使非专业用户也能创建工作室质量的视觉效果[6] - 能力提升得益于Gemini 3 Pro增强的推理能力和世界知识,使模型能生成更准确、上下文更丰富的视觉效果[6] 行业应用与影响 - 在创意产业与市场营销领域,Nano Banana Pro支持原生2K/4K分辨率输出,允许通过自然语言调整专业参数,达到接近专业摄影棚级别的图像质量控制[6] - 强大的延展功能允许基于一个主视觉,快速生成适用于社交媒体、手机屏幕、电影画幅等不同平台的多种比例版本,大幅提升营销素材生产效率[6] - 对于知识工作与内容生产,该模型能成为教育和科研领域的强大可视化工具,快速将复杂知识转化为图表[6] - 通过与Google Slides、Adobe Photoshop和Figma等软件整合,能直接嵌入企业工作流,用于快速美化PPT、生成UI模型等,预示“AI辅助设计”有望成为新生产方式[6] 投资建议 - 建议关注AI细分景气方向,包括国产算力、企业服务及应用场景[6] - 国产算力关注寒武纪、海光信息、阿里巴巴、中科曙光、景嘉微、龙芯中科等[6] - 企业服务关注办公、多模态、ERP、OA、编程及营销等细分领域相关公司[6] - 应用场景关注金融、教育、法律、医疗、电商、安全、工业及军用等领域相关公司[6]
谷歌AI生图工具更新:擅长“图文并茂”,几乎“以假乱真”
新浪财经· 2025-11-21 15:23
产品发布与定位 - 谷歌旗下图像生成工具Nano Banana 2于11月20日晚间更新上线,该工具首次发布于8月并迅速引起巨大反响,一度被誉为“最强图像生成引擎”[3] - 公司正努力将该工具从娱乐工具升级为效率与创作神器,官方简介称其提供更高的图像质量、更一致的编辑、更强的3D生成以及针对复杂任务更深入的推理能力[5] 产品性能与功能提升 - 模型新增的文字理解功能堪称惊艳,将图像生成模型的能力边界拓展至PPT等图文并茂的解释性图片生成[5] - 相比初代模型,Nano Banana 2在理解复杂指令方面有显著提升,例如在生成解释“三国鼎立”历史故事的图片时,能基本还原魏蜀吴三国的相对地理位置,而初代模型的理解则更“扁平”且出现大量错别字[13] - 在生成现实内容方面达到“以假乱真”的效果,例如在生成街角抓拍照时,能自主增添马路、斑马线、路边咖啡店等要素,并保持细节一致性如中英文店名[13][15] - 面对漫画生成等创作任务表现出合格审美,例如生成的高楼火灾逃生四格漫画几乎可直接打印作为消防知识普及海报使用[15] 技术规格与市场背景 - Nano Banana 2生成单张图片普遍消耗75积分,而初代模型消耗50积分;生成速度略慢于初代模型,但仍能控制在半分钟内[5] - 到2030年,全球AI图像引擎市场预计将增加至917.45万美元,2023年至2030年的复合年增长率达17.4%[21] - Nano Banana 2的性能和能力表明其可能建立在Gemini人工智能家族的基础之上,但谷歌尚未正式宣布Gemini与Nano Banana的具体关系[21]
一文读懂:为什么Nano Banana Pro重新定义了AI图像生成标准 | 巴伦精选
钛媒体APP· 2025-11-21 12:44
产品发布与定位 - 谷歌于11月21日正式推出图像生成工具Nano Banana Pro(Gemini 3 Pro Image),该产品基于Gemini 3 Pro构建,具备增强的推理能力、世界知识和实时信息接入能力 [2] - 产品旨在生成更准确、更具上下文信息的视觉效果,并能连接到谷歌搜索庞大的知识库,快速创建可视化实时信息 [2] - 在同期市场中,Nano Banana Pro被资深设计师评价为具有碾压性的整体竞争力 [2] 产品核心优势与行业痛点解决 - 产品近乎完美地解决了AI图像生成领域的五大行业顽疾中的至少4/5以上问题 [9] - 在一致性与可控性方面,产品原生支持高强度上下文保持功能,能同时处理多达14张参考图像输入,在复杂构图中精准保持多达5个角色的面部特征和服装细节 [9] - 通过对物理参数的深度微调功能,用户可自由调整景深、光影角度、色彩分级等参数,弥补模型对物理规则理解能力的不足,并支持最高4K分辨率图像输出 [16] - 在文本渲染能力上实现飞跃,能精准贴合品牌名称于易拉罐曲面,并根据指令生成符合透视和光影逻辑的多语言版本包装图 [13] - 为应对深度伪造风险,谷歌为生成图像嵌入SynthID数字水印,该水印在像素层面难以察觉但算法层面可精准识别,即便图像经过裁剪、压缩或滤镜处理依然有效 [15] 生态系统整合与市场影响 - 产品与谷歌生态系统深度整合,可生成高保真UI界面原型,并与Antigravity平台协同工作直接将视觉设计转化为前端代码 [18] - 产品将被整合到Adobe、Figma等主流创意工具以及谷歌自家的Slides、Vids和Flow视频工具中,以扩大在创意领域的应用范围 [18] - 在Nano Banana的推动下,Gemini的月活用户数在一个季度内从4.5亿暴增至6.5亿 [18] 定价策略与目标用户 - 相比于普通版,Nano Banana Pro版本定价更高:生成一张1080p或2K图像成本为0.139美元,4K图像生成成本高达0.24美元 [18] - 定价策略清晰划分用户群体,普通版适合日常娱乐和快速预览,Pro版专为容错率低的专业商业场景设计 [18] 与竞品对比 - 与Midjourney相比,后者在艺术性和创意性上有优势,但在多语言处理、物理参数调整以及高保真度生成方面不足 [2] - 与Stable Diffusion相比,后者在扩展性和灵活性上表现优异,但在生成内容的语义一致性和精确性上难以达到Nano Banana Pro水准 [2] - 与DALL·E相比,后者在趣味性和创意性生成方面突出,但工业级精确控制能力仍是其短板 [2]
闪电快讯|谷歌AI生图工具更新:擅长“图文并茂”,几乎“以假乱真”
新浪财经· 2025-11-21 11:24
Nano Banana 2产品升级 - 谷歌旗下图像生成工具Nano Banana 2于11月20日晚间更新上线,旨在从娱乐工具升级为效率与创作神器 [1] - 官方简介称Nano Banana Pro提供更高图像质量、更一致编辑、更强3D生成及针对复杂任务更深入推理能力 [1] - 相比初代模型,Nano Banana 2生成单张图片消耗75积分,而初代模型消耗50积分,生成速度略慢但仍控制在半分钟内 [2] 核心性能提升 - 模型新增文字理解功能,将能力边界拓展至PPT等图文并茂解释性图片生成 [1][4] - 在解释性图片生成任务中,模型能自主生成相关内容,如解释近视成因或标注华北省份地理位置及模拟产量数据 [4][6] - 相比初代模型,Nano Banana 2在历史故事理解上更准确,能以地图形式还原三国地理位置且避免错别字 [8][11] 应用场景拓展 - 在现实内容生成方面达到以假乱真效果,能自主增添如马路、斑马线、咖啡店等场景细节 [11][15] - 面对漫画生成等创作任务表现出合格审美,生成图片可直接作为消防知识普及海报使用 [12] - 工具具备生成各类名人照片的能力,如马斯克与黄仁勋握手或肖战穿宇航服的照片 [14][17][19] 行业市场前景 - 全球AI图像引擎市场预计到2030年将增加至917.45万美元,2023年至2030年复合年增长率达17.4% [19] - Nano Banana 2引发的用户讨论成为谷歌在大模型市场多模态能力竞赛中的有利条件 [19] - 官方网页暗示Nano Banana性能表明其建立在Gemini人工智能家族基础之上,但谷歌未正式宣布具体关系 [20]
打工人的“图像生成神器”来了
财联社· 2025-11-21 09:02
产品发布与市场影响 - 谷歌发布Nano Banana Pro图像生成模型重大更新 [2] - 前代模型Nano Banana基于Gemini 2.5 Flash 能将人物或动漫照片转为3D打印手办 在全球范围内产生破圈效应 [2] - 在Nano Banana推动下 Gemini应用月活用户数在一个季度内从4.5亿增长至6.5亿 增长2亿用户 [2] 核心技术能力与改进 - Nano Banana Pro基于新发布的Gemini 3 Pro模型构建 [4] - 模型在细节表现力 图像分辨率和文本渲染准确性方面超越前代 支持以不同风格 字体和语言生成文本 [4] - 该模型被强调为在图像中生成正确清晰可读文字的最佳AI模型 支持从简短标语到长段落 具备丰富纹理 字体和书法 [4] - 借助Gemini增强的多语言推理能力 可生成多语言文本或进行内容翻译与本地化 [4] - 图像分辨率从1024x1024提升至最高4K 支持调整多种纵横比 [12] - 模型具备互联网搜索能力 可将现实世界信息转化为可视化内容 [4][8] 应用场景与功能特性 - 新增编辑功能 支持改变相机角度 场景光线 景深 对焦等 将创意决策权交予使用者 [12] - 非常适合制作PPT或信息图表 将被加入谷歌办公套件Workspace [10] - 在处理信息图表方面表现出色 最多可处理14张不同图像或5个不同角色 并保持角色一致性 [10] - 免费用户可在Gemini等应用中试用新功能(有配额限制) AI Plus Pro和Ultra订阅用户将获得更高配额 该功能将率先在AI电影制作工具Flow中向Ultra用户推出 [16]
年轻人用AI生成流浪汉吓坏父母,吸引810万人围观,这次玩笑开大了
机器之心· 2025-10-16 10:20
AI生成内容在社交媒体娱乐中的应用 - 当前互联网流行使用AI生成流浪汉图像对家人进行整蛊 记录其恐慌反应 [3][4] - TikTok博主通过AI生成陌生人入侵家庭场景的系列图片 例如使用牙刷 躺在床上的图片 引发父亲强烈反应并连续拨打7通未接电话 [4][5][6] - 该整蛊视频获得超过810万播放量和近87万点赞量 显示出极高的用户参与度 [10] AI整蛊内容的制作方法与传播 - 整蛊视频制作门槛低 使用谷歌Gemini等工具 通过上传家庭内部照片并输入添加无家可归者的指令即可快速生成逼真图像 [11] - 制作流程包括在不同房间重复生成图像 例如让AI生成人物坐在沙发或翻冰箱 并在父母不在家时发送图片制造恐慌 最后将反应上传至社交媒体 [11] - 该模式成为流量密码 引发众多博主模仿 内容形式从静态图像升级到AI视频造假 例如生成流浪汉使用毛巾擦脸 躺在床上休息的视频 尽管存在AI生成瑕疵如人物切换 但仍能对不熟悉AI的年长父母造成恐慌 [12] AI整蛊内容的社会影响与风险 - AI图像和视频生成技术逼真度高 难以辨别真假 容易引发年长父母的强烈焦虑和恐慌 可能导致过激反应或不必要冲突 [18] - 此类恶作剧可能造成严重后果 例如家长因恐慌选择报警或让保安上门 浪费警力资源 甚至可能引发特警队出动 [22][23] - 娱乐和创意表达需注意分寸 不应建立在伤害他人或引发不必要困扰的基础上 [25]
混元图像3.0 全球“盲测”登顶
贝壳财经· 2025-10-05 20:17
文章核心观点 - 腾讯混元图像3 0模型在国际权威评测平台LMArena的文生图榜单中超越全球其他25个大模型位居第一 [1] - 该模型被LMArena官方评为最佳综合文生图模型与最佳开源文生图模型 [1] - 评测结果基于全球用户的真实偏好盲测机制具有较高权威性 [1] 模型技术特性 - 混元图像3 0是腾讯发布并开源的原生多模态生图模型于9月28日推出 [2] - 当前版本已开放文生图能力图生图图像编辑多轮交互等功能将在后续版本发布 [2] 行业竞争地位 - 混元图像3 0在评测中超越了Seedream 4以及代号nano-banana的Gemini 2 5 Flash Image Preview等竞争对手 [1] - LMArena是美国加州大学伯克利分校推出的创新AI模型评估平台其榜单被视为国际权威标准 [1]
著名机器人专家警告:投资人形机器人初创企业是浪费资金|首席资讯日报
首席商业评论· 2025-09-29 11:50
机器人行业投资争议 - 著名机器人专家罗德尼・布鲁克斯警告投资人形机器人初创企业是浪费资金 尤其质疑特斯拉和Figure通过视频训练机器人灵巧操作的做法 称为纯粹幻想思维 [2] 万达集团债务危机 - 大连万达集团及法定代表人王健林被限制高消费 公司此前被强制执行1.86亿元 另有47条股权冻结记录和10条被执行人信息 总金额达52.62亿元 [3] - 为缓解现金压力 万达2025年以来出售7座万达广场 2023-2024年间出售超30座万达广场 [3] 传媒行业评级调整 - KeyBanc将华纳兄弟探索评级从增持下调至持有 认为若潜在收购未实现可能面临下行风险 特别提及派拉蒙天空之舞可能出价 [4] 住房公积金政策优化 - 广州允许提取住房公积金支付购房首付款 适用范围包括现售商品住房 存量商品住房 配售型保障性住房和共有产权住房 [6] - 广州允许提取住房公积金支付住宅老旧电梯更新改造的家庭分摊费用 [6] 上市公司动态 - 安科生物控股股东不存在将所持股份出借给量化机构的情况 [7] - 小熊电器回应养生壶爆炸事件 称正在调查中 无法接触产品判断事故原因 [8] 住房市场规范调整 - 上海出台住宅品质提升新规 调整阳台面积计算方式 回应市场对宽敞阳台需求 新规包含5大类17条举措 [9] 餐饮企业动态 - 西贝创始人贾国龙清空社交账号 仅保留一条视频显示西贝年营收达62亿元 [10] 新能源汽车行业 - 零跑汽车创始人朱江明被解除限高令 此前因公司业务纠纷被强制执行 [11] 食品安全监管 - 深圳市市场监管局抽检167批次月饼样品 全部合格 涉及104家经营主体 [12] AI初创公司融资 - AI图像生成公司Black Forest Labs正以40亿美元估值筹集2-3亿美元 此前曾在10亿美元估值下进行未公开融资 [12]