Workflow
Imagen
icon
搜索文档
Nano Banana为何能“P图”天衣无缝?谷歌详解原生多模态联合训练的技术路线 | Jinqiu Select
锦秋集· 2025-08-29 15:53
最近,那个在社区中引发热议、代号为"Nano Banana"的图像编辑模型正式发布了。 如果说gpt-Image1让人初步感受到了原生图像生成的潜力,那么Nano Banana则标志着这种魔法般的能力真正开始落地。 谷歌Gemini团队的Nicole Brichtova、Kaushik Shivakumar、Mostafa Dehghani和Robert Riachi近日接受访谈,详细解读了Gemini 2.5 Flash背后的关键技术。他们探讨了 复杂编辑中交织式生成(interleaved generation)的实现方式,以及在保持人物一致性和实现精准像素控制方面的新突破。 锦秋基金(公众号:锦秋集;ID:jqcapital)认为,这篇文章揭示一部分了nano banana背后的技术思路,因此也做了编译。 Nano Banana凭借强大的原生图片编辑能力迅速出圈,大量用户夸赞它在人物一致性、风格泛化上取得了不可思议的进步;与此同时,作为gemini-2.5-flash的原生图 像生成功能,Nano Banana真正做到了理解图像与创造图像的融合。 应对复杂 指令 的新 范式 对于非常复杂的指令(例如,一 ...
「香蕉革命」首揭秘,谷歌疯狂工程师死磕文字渲染,竟意外炼出最强模型
36氪· 2025-08-29 15:53
产品核心功能 - 多图像融合生成全新画面,最多支持13张图片合并 [2] - 二维地图转化为三维景观,理解地理等高线知识 [19][25] - 从图像中提取物理结构,精准转化线稿和上色 [38][40] - 多轮交错生成技术,实现有记忆的连续创作 [53][57] - 支持逆向图像处理,包括黑白线框重新上色和破损照片修复 [37][44] 技术架构突破 - 集成Gemini世界知识引擎,具备地理建筑识别与标注能力 [6][10][12] - 采用原生与交错式生成技术,13秒内生成五张风格统一图像 [57][59] - Gemini团队负责逻辑推理与指令遵循,Imagen团队负责美学优化 [68][70] - 通过文字渲染训练提升图像宏观与微观结构理解力 [64][65][67] 应用场景创新 - 影视制作分镜生成,实现AI辅助拍电影 [10] - 建筑设计视角转换,支持工程绘图与三维视图生成 [26][29] - 虚拟试衣与动作复刻,达成摄影棚级效果 [28][33] - 室内设计与花园改造,生成多种风格方案 [59] - 机器人视角人物轮廓勾勒,实现终结者风格图像 [17] 市场反响与测试表现 - 在LMArena平台上线后迅速风靡社区 [46][48] - 盲测中Gemini 2.5 Flash Image成绩一骑绝尘 [48] - 网友创作涵盖超人COS、奥特曼整蛊等多样化内容 [2][42] - 内部测试处理芝加哥街景等现实场景精度获验证 [50] 开发方法论 - 基于推特用户反馈建立"差评榜"优化模型 [62] - 通过多模态上下文理解实现创意指令执行 [53][55] - 团队目标开发具备事实准确性的智能办公辅助功能 [74] - 追求超越用户指令的智能涌现与创造性输出 [76][78]
谷歌Nano Banana全网刷屏,起底背后团队
36氪· 2025-08-29 15:08
引入「交错生成」功能,增强模型在世界知识和创意解释方面的能力。 香蕉也能变礼服?Google 真的做到了! 在最新一期谷歌开发者节目里,Google DeepMind 团队首次全面展示了 Gemini 2.5 Flash Image —— 一款拥有原生图像生成与编辑能力的最新模型。 它不仅能快速生成高质量图像,还能在多轮对话中保持场景一致,带来了前所未有的互动体验,堪称 SOTA 级图像生成革命。 背后的研发和产品团队,也首次亮相。 起底背后团队 Logan Kilpatrick Logan Kilpatrick 是 Google DeepMind 的高级产品经理,负责领导 Google AI Studio 和 Gemini API 的产品开发工作。 他毕业于哈佛大学和牛津大学,早期在 NASA 开发月球车软件,并在 Apple 训练机器学习模型 。他对 Julia 编程语言持积极态度,并曾在 2024 年表示, 直接迈向人工超智能(ASI)而不关注中间阶段的做法「越来越可能」。 他在 AI 开发者社区中享有盛誉,曾在 OpenAI 担任开发者关系负责人,广为人知的昵称是 「LoganGPT」 。在加入 Go ...
谷歌Nano Banana全网刷屏,起底背后团队
机器之心· 2025-08-29 12:34
机器之心报道 在最新一期谷歌开发者节目里 ,Google DeepMind 团队首次全面展示了 Gemini 2.5 Flash Image —— 一款拥有原生图像生成与编辑能力的最新模型。 它不仅能快速生成高质量图像,还能在多轮对话中保持场景一致,带来了前所未有的互动体验,堪称 SOTA 级图像生成革命。 背后的研发和产品团队,也首次亮相。 起底背后团队 Logan Kilpatrick 机器之心编辑部 引入「交错生成」功能,增强模型在世界知识和创意解释方面的能力。 香蕉也能变礼服?Google 真的做到了! Logan Kilpatrick 是 Google DeepMind 的高级产品经理,负责领导 Google AI Studio 和 Gemini API 的产品开发工作。 他在 AI 开发者社区中享有盛誉,曾在 OpenAI 担任开发者关系负责人,广为人知的昵称是 「LoganGPT」 。在加入 Google 之前,他曾在 Apple 担任机 器学习工程师,并在 NASA 担任开源政策顾问 。 在 Google,Kilpatrick 领导了 Gemini 2.0 Flash 的本地图像生成功能的推出 ...
谷歌偷偷搞了个神秘模型Nano-Banana?实测:强到离谱,但有3大硬伤
机器之心· 2025-08-26 16:53
模型背景与推测 - 神秘AI模型Nano-Banana在LMArena平台Battle模式中被发现 但未公开列出且无官方开发者认领[2][3] - 社区推测其可能为谷歌研究模型 依据包括谷歌AI Studio产品负责人发布香蕉表情符号及DeepMind产品经理发布相关艺术作品[4][5][6][7] - 其他佐证包括谷歌曾将较小模型称为"Nano" 且生成图像质感与Imagen或Gemini系列相似[10] 技术能力与表现 - 模型在文本编辑、风格融合和场景理解方面表现优异 支持上传两张图片并输入提示词融合元素[8] - 能精准理解复杂文本提示 例如将横放书籍立起并添加书挡摆放到柜子上[9] - 在商业场景如产品照片、广告中表现稳定 能保留复杂细节如刺绣图案并保持光线视角一致性[13][15] - 存在局限性:可能产生反射、光照逻辑或物体位置不一致问题 人物手指偶现畸形 书籍文字可能出现乱码[20] 使用体验与比较 - 目前仅能通过LMArena平台随机体验 无官方API或正式官网链接 导致体验不稳定[22][23] - 文生图测试中生成图像更符合提示词细节(如化妆师背景道具) 人物动作服装更自然且手部无瑕疵 对比ChatGPT生成效果更优[29][30] - 图片编辑功能可无缝添加元素 如将类人机器人融入公园环境且毫无违和感[33][34] - 支持复杂指令如逆向工程描绘摄影创作过程 生成场景搭建图像[36] - 在人物融合任务中表现优于Gemini 2.0 flash 但细节处理仍有瑕疵(如手指变形)[43][44][45] 创新应用案例 - 与谷歌Veo3结合可制作长视频 例如提取视频帧后生成下一场景并用Veo3动画化[47][48][49] - 可将插画转化为手办模型 生成图像保留五官细节且真实感强 再通过Veo3制作展示视频[51][55][56] - 谷歌Veo3近期免费开放体验 普通用户每日可生成3个8秒视频片段 Pro和Ultra订阅用户分别有3个和10个配额[61][62]
物理学家靠生物揭开AI创造力来源:起因竟是“技术缺陷”
量子位· 2025-07-04 12:40
核心观点 - AI的"创造力"本质上是扩散模型架构的确定性产物,而非高级智能表现[1][19] - 扩散模型的局部性和等变性限制(技术缺陷)反而成为其创造力的来源[13][16][19] - 该机制与生物形态发生学中的图灵模式高度相似,解释了AI生成图像常见缺陷(如多余手指)的成因[9][12][19] 研究背景 - 扩散模型(DALL·E/Stable Diffusion核心)设计初衷是精确复制训练数据,但实际表现出"即兴创作"能力[3][5] - 去噪过程中像素块的局部重组导致信息丢失,类似拼图丢失说明书后的创造性重组[6][8] - 物理学家团队(跨学科背景)从生物自组装过程获得启发,建立ELS数学模型验证假设[9][16] 关键发现 - ELS模型仅基于局部性+等变性规则,即能以90%准确率复现扩散模型输出[18][19] - 创造力源于系统动态:模型过度关注局部像素块而缺乏全局协调(类似生物发育中的多指畸形)[12][15][19] - 该机制可数学形式化,证明创造力是去噪过程的必然副产品[16][19] 未解问题 - 非扩散模型(如LLM)的创造力机制尚未被该理论覆盖[21] - 人类与AI创造力可能共享"不完整认知→填补空白"的底层逻辑[21][22] 行业意义 - 首次将AI创造力归因于底层技术架构而非抽象能力[1][19] - 为理解人类创造性思维提供新视角(神经科学类比)[19][21] - 可能推动新一代生成模型的设计范式转变[16][19]
AI日报丨一夜涨超1万亿元!英伟达市值再度冲顶,近90%的分析师还在喊买买买!
美股研究社· 2025-06-26 17:27
AI行业动态 - 英伟达股价大涨4.3%至154.31美元 总市值达3.77万亿美元 超过微软成为全球市值第一公司 [3] - 近90%分析师对英伟达持买入评级 微软 Meta Alphabet和亚马逊合计贡献其超40%收入 [3] - 英伟达CEO黄仁勋表示AI和机器人技术是最大增长机遇 代表数万亿美元机会 自动驾驶将成为首个主要商业应用领域 [3] - 软银CEO表示将保持对AI领域投资的进攻立场 [3] 生成式AI投资回报 - Snowflake报告显示采用生成式AI的企业平均ROI达41% 每投入100万美元获得141万美元商业价值 [4] - 企业采用生成式AI主要动机为提高运营效率(51%) 改善客户体验(43%) 加速创新成果(40%) [4] - 98%企业预计未来12个月内生成式AI项目预算将增加 涵盖数据 模型 软件 基础设施和人员 [4] 科技公司动态 - 谷歌开源AI Agent框架Gemini CLI 集成视频模型Veo和图像模型Imagen 支持MCP 谷歌搜索等功能 [5] - 超微电脑股价周三上涨5% 盘中最大涨幅达9.5% 创5月16日以来新高 今年迄今累计上涨48% [7][8] - 苹果正与F1谈判在赛车上安装摄像镜头 可能改变赛事转播方式 此前已在F1赛车上安装数十个iPhone摄像头拍摄电影 [9]
谷歌发布AI智能体加入编程混战,Cursor们怎么办?
第一财经· 2025-06-26 15:18
行业动态 - AI编程成为2025年大模型落地进展最快的场景之一,各大厂商和初创公司争相布局,每月都有新产品和话题出现 [1] - 谷歌发布开源AI智能体Gemini CLI,将Gemini大模型能力接入终端命令行界面,擅长编程同时支持内容生成、问题解决、研究和任务管理等多种功能 [1] - 行业认为谷歌Gemini CLI直接对标Anthropic的Claude Code,后者被专业开发者视为当前最强编程工具之一,此次发布使AI编程市场竞争进一步升级 [3] 产品特性 - Gemini CLI在Github完全开源,项目热度迅速攀升,已获得超过1.9万颗星,采用类似安卓生态的开源模式,与Claude Code的闭源iOS模式形成对比 [3] - 产品提供完全免费使用机会,开发者可通过谷歌账号获取免费许可,包含Gemini 2.5 Pro访问权限和100万token上下文窗口,每分钟60次、每日1000次请求限额 [4] - 除编程外,Gemini CLI可直接调用谷歌视频模型Veo和图像模型Imagen,支持制作短视频等多媒体内容创作 [4] - 产品集成MCP、谷歌搜索、自定义自动化等功能,可设置自动执行特定操作如社交媒体内容生成和发布,更贴合工作流程 [6] 市场竞争 - Gemini CLI被业界视为Claude Code的平价替代品,凭借免费开源优势成为强劲竞争对手 [6] - Claude Code在复杂项目管理、深度代码理解等场景表现优异,被开发者比作经验丰富的资深工程师,但使用成本是Cursor的几倍 [6] - 大模型厂商通过免费开源低门槛策略扫荡市场,对Cursor等初创公司构成压力,后者需建立更深护城河应对挑战 [7] 产品对比 - Gemini CLI免费开源,Cursor最低月费20美元,Claude Code使用成本更高 [4] - 在速度、成本和交互流畅度方面,部分开发者仍更支持Cursor [6] - Claude Code在自动化、无人值守、跨终端等复杂场景表现突出,是目前公开可用的最强AI编程助手 [6]
谷歌开源AI Agent框架Gemini CLI
快讯· 2025-06-26 06:06
谷歌开源AI Agent框架Gemini CLI - 公司开源了AI Agent框架Gemini CLI,将Gemini大模型直接融入终端 [1] - 框架最大亮点是可直接调用视频模型Veo和图像模型Imagen,并集成MCP、谷歌搜索、自定义自动化等功能 [1] - 框架可调用专业AI开发助手Gemini Code Assist,支持编写代码、修复BUG、迁移代码等开发任务 [1] - 开源项目在Github已获得超过9000颗星,显示开发者社区高度关注 [1]
「人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
机器之心· 2025-06-16 17:10
AI生成内容的真实性挑战 - 一段AI生成的袋鼠登机视频在X平台获得7460万次观看 Instagram点赞量达1104万次 因动物行为逼真引发广泛传播[4][5] - 视频存在多处AI痕迹 包括登机牌文字乱码 人物使用虚构语言 空乘胸牌无名 乘客戒指突然出现等细节漏洞[5][7][9] - 视频来源账号InfiniteUnreality专门制作超现实AI动物内容 如飞机座椅上的河马 登机长颈鹿等[13][16] 用户误判AI内容的原因 - 谷歌Veo3等技术已实现高清自然影像生成 包括眨眼 头部微动作协调及逼真音效 大幅提升欺骗性[18] - 创作者虽标注AI标签但采用隐蔽符号(∞) 多数用户难以识别 二次传播者常省略AI声明[19][21] - 用户玩梗行为加剧误导 如评论"袋鼠日常"等调侃形成真实性印象叠加 少数质疑声被淹没[24] 真实内容被反向误认为AI的案例 - 博主将12年前Tim Minchin真实演唱会视频伪称为Veo3生成 提示词详细描述哥特钢琴家场景[28][29] - 类似操作包括用Vitas真实影像假冒AI生成 显示当前真伪判断已进入双向混淆阶段[32] AI内容鉴伪技术发展 - 谷歌推出SynthID工具 通过数字水印识别Gemini Imagen等自家AI生成内容 抗裁剪/转格式干扰[35][36] - 该技术局限在于仅适用于谷歌系模型 对ChatGPT Midjourney等第三方AI内容无效 且恶意编辑可能破坏水印[37][38]