Workflow
nano banana
icon
搜索文档
周鸿祎:语言是最重要的,语言掌握了就一通百通
新浪科技· 2025-09-24 13:09
核心观点 - 行业观点认为语言是人工智能发展的关键 语言突破将推动其他AI模型领域取得重大进展[1] 行业技术路径 - 行业观点指出语言在人类活动中承担交流 知识传承 逻辑推理和世界描述的核心功能 是理解世界模型的关键[1] - 行业观点认为人工智能过去未能取得突破的原因在于未理解语言的重要性 一旦掌握语言即可通晓人类知识 世界和推理能力[1] - 行业观察到Google近期发布的nano banana产品在图形理解方面表现惊艳 其能力超越了视觉层面并融合了知识[1] 技术突破影响 - 行业观点强调语言技术取得突破后 音乐模型 视频模型 图形模型和视觉模型等领域均获得显著进展[1]
GOOGL's $3T Valuation & Gemini's A.I. "Momentum"
Youtube· 2025-09-19 21:00
公司市值与财务表现 - Alphabet公司本周市值突破3万亿美元 [1] - 公司拥有成熟可靠的在线广告收入模式 [2] - 上个财季收入增长,通过销售效果更好的广告实现盈利提升 [2] AI产品发展里程碑 - Google Gemini在应用商店的排名超越ChatGPT成为榜首应用 [3] - 公司在AI领域具备从硬件到软件的全栈研发团队 [4] - 图像模型"nano banana"实现实用功能,如更换照片中衬衫颜色 [5] AI技术优势与数据资产 - 公司在图像AI处理方面表现突出,源于拥有世界顶级研究人员和数据集 [8] - 通过Google图片搜索和Google Photos等产品积累大量图像数据 [8] - 数据优势为创造个性化体验提供基础,如定制化广告展示 [6][9] 商业模式与市场拓展 - 采用广告支持的免费模式有利于AI技术在全球范围的普及 [11] - 广告商业模式可覆盖全球70亿人口,而付费订阅模式会限制用户规模 [12] - 公司已建立完善的广告销售和分发体系,可轻松将AI整合至现有广告平台如YouTube [13] 公司战略与文化转型 - 近期在英国进行AI投资,考虑业务发展、产品优化和监管关系等多重因素 [13] - 公司历史上虽发明了Transformer架构但未率先商业化,最近六个月出现文化转变 [16] - 目前展现出快速构建并推出受市场欢迎产品的能力,产品开发节奏加快 [16] 行业竞争地位 - 在AI消费产品领域,OpenAI早期革命性突破但Google已强势进入市场 [3][4] - 公司与Meta在"科技七巨头"中年内表现并驾齐驱,处于领先地位 [17] - 品牌影响力和现有用户基础为AI产品推广提供优势,表明市场可容纳多个竞争者 [4]
为了让大家用好nano banana,谷歌发布了一份官方提示词教程
Founder Park· 2025-09-03 20:21
文章核心观点 - 谷歌官方发布了针对nano banana(Gemini 2.5 Flash Image)的6套Prompt模板,帮助用户快速生成高质量图像 [1][4] - 模板设计基于讲故事式场景描述,覆盖写实摄影、贴纸插图、文本渲染、商业摄影、极简留白和漫画分镜六大应用场景 [3][4] - 通过结构化Prompt模板(包含主体描述、环境设定、光线参数、镜头细节等要素),可显著提升图像生成质量 [8][10][19][29][39][48][56] 写实摄影模板 - 需模拟专业摄影师思维,明确机位、镜头类型、光线和细节要素 [6][7] - 标准模板结构:A photorealistic [shot type] of [subject], [action or expression], set in [environment]. The scene is illuminated by [lighting description], creating a [mood] atmosphere. Captured with a [camera/lens details], emphasizing [key textures and details]. The image should be in a [aspect ratio] format [10] - 示例生成日本陶艺家特写肖像:使用85mm人像镜头、黄金时刻光线、竖版构图 [12][13] 插图与贴纸模板 - 需明确声明风格类型、关键特征、配色方案及背景要求(如白底) [19][20] - 标准模板结构:A [style] sticker of a [subject], featuring [key characteristics] and a [color palette]. The design should have [line style] and [shading style]. The background must be white [20] - 示例生成小熊猫贴纸:采用kawaii风格、粗壮描边、赛璐璐上色和鲜艳配色 [22][23] 文本渲染模板 - nano banana在文本渲染任务表现突出,需明确文字内容、字体风格和整体设计 [28][29] - 标准模板结构:Create a [image type] for [brand/concept] with the text "[text to render]" in a [font style]. The design should be [style description], with a [color scheme] [30] - 示例生成咖啡店Logo:极简风格、无衬线字体、咖啡豆图标与文字融合的黑白配色方案 [32][33] 商业摄影模板 - 商业感图像需具备干净背景、可控布光和展示产品卖点的机位 [38] - 标准模板结构:A high-resolution, studio-lit product photograph of a [product description] on a [background surface/description]. The lighting is a [lighting setup] to [lighting purpose]. The camera angle is a [angle type] to showcase [specific feature]. Ultra-realistic, with sharp focus on [key detail]. [Aspect ratio] [39] - 示例生成陶瓷咖啡杯产品照:三点柔光箱布光、45度仰角拍摄、聚焦蒸汽细节的方形构图 [41][42] 极简主义与留白设计模板 - 适合创建背景图像以便叠加文字,需明确主体位置、背景色和光线方向 [47][48] - 标准模板结构:A minimalist composition featuring a single [subject] positioned in the [position] of the frame. The background is a vast, empty [color] canvas, creating significant negative space. Soft, subtle lighting. [Aspect ratio] [48] - 示例生成枫叶图像:右下角构图、米白色背景、左上方向柔光的方形画幅 [50][51] 漫画分镜模板 - 适用于视觉叙事创作,需明确艺术风格、场景分层、对话文本和氛围营造 [55][56] - 标准模板结构:A single comic book panel in a [art style] style. In the foreground, [character description and action]. In the background, [setting details]. The panel has a [dialogue/caption box] with the text "[Text]". The lighting creates a [mood] mood. [Aspect ratio] [56] - 示例生成黑色电影风格漫画:高反差黑白墨线、雨景环境、硬光氛围和横向画幅 [59][60] 技术实现方式 - 提供完整Python API调用代码示例,通过修改Prompt内容和文件名即可实现批量生成 [15][17][27][46][53][64] - 代码基于google.genai库开发,支持图像保存与后期处理 [16]
「香蕉革命」首揭秘,谷歌疯狂工程师死磕文字渲染,竟意外炼出最强模型
36氪· 2025-08-29 15:53
产品核心功能 - 多图像融合生成全新画面,最多支持13张图片合并 [2] - 二维地图转化为三维景观,理解地理等高线知识 [19][25] - 从图像中提取物理结构,精准转化线稿和上色 [38][40] - 多轮交错生成技术,实现有记忆的连续创作 [53][57] - 支持逆向图像处理,包括黑白线框重新上色和破损照片修复 [37][44] 技术架构突破 - 集成Gemini世界知识引擎,具备地理建筑识别与标注能力 [6][10][12] - 采用原生与交错式生成技术,13秒内生成五张风格统一图像 [57][59] - Gemini团队负责逻辑推理与指令遵循,Imagen团队负责美学优化 [68][70] - 通过文字渲染训练提升图像宏观与微观结构理解力 [64][65][67] 应用场景创新 - 影视制作分镜生成,实现AI辅助拍电影 [10] - 建筑设计视角转换,支持工程绘图与三维视图生成 [26][29] - 虚拟试衣与动作复刻,达成摄影棚级效果 [28][33] - 室内设计与花园改造,生成多种风格方案 [59] - 机器人视角人物轮廓勾勒,实现终结者风格图像 [17] 市场反响与测试表现 - 在LMArena平台上线后迅速风靡社区 [46][48] - 盲测中Gemini 2.5 Flash Image成绩一骑绝尘 [48] - 网友创作涵盖超人COS、奥特曼整蛊等多样化内容 [2][42] - 内部测试处理芝加哥街景等现实场景精度获验证 [50] 开发方法论 - 基于推特用户反馈建立"差评榜"优化模型 [62] - 通过多模态上下文理解实现创意指令执行 [53][55] - 团队目标开发具备事实准确性的智能办公辅助功能 [74] - 追求超越用户指令的智能涌现与创造性输出 [76][78]
魔法再现,谷歌发布最强图片模型 nano banana,劈柴一秒回印度老家
36氪· 2025-08-27 16:19
产品性能与市场地位 - Google DeepMind实验室推出的Gemini-2.5-Flash-Image-Preview(别称Nano Banana)以1362分位列LMArena图片编辑模型排行榜榜首,显著领先第二名Black Forest的flux-1-kontext-max模型(1191分)[1][3] - 该模型在投票中获得2,521,035次支持,远超第二名模型的357,196次,且评分95%置信区间为±2,显示数据稳定性高[1] - 支持多模态输入(文本、图像、视频、音频),图像输出定价为每百万tokens 30美元,单张图像处理成本约0.3元人民币[48] 技术能力突破 - 实现通过文本指令精准编辑图像,包括更换背景、视角、色调及添加衣物,并保持主体特征高度一致(人物转圈后面部变化微小)[6][11][23] - 具备多轮次编辑与多图叙事能力,支持连续修改图像而不丢失原始特征,可生成漫画分镜、多角色互动及技术插图[6][25][27] - 处理速度达1-2秒/张,显著快于同类模型10-15秒的处理时长,且集成Veo3工作流后可快速生成高质量视频[47] 应用场景与用户反馈 - 在动漫领域表现突出,能根据手绘示意图生成多角色姿态一致的三视图及消费级漫画[25][27][33] - 支持科学插图绘制,具备高保真文本渲染与几何题目解答能力,5秒内完成复杂插图生成[43][44][45] - 用户实测反馈一致性极强(普通人物照片难以察觉面部变化),但名人面部处理偶有轻微失真,且过滤器存在误拒正常请求的情况[35][36][47]