Workflow
多模态语义对齐
icon
搜索文档
一根香蕉引发的AI狂潮
虎嗅APP· 2025-09-16 16:58
产品发布与市场热度 - 谷歌于8月27日官宣其匿名测试的AI模型Nano Banana实为全新图像生成与编辑模型Gemini 2.5 Flash Image [6] - 该模型上线一周后累计完成超2亿次图像编辑,并为Gemini吸引了超过1000万新用户 [9] - 其爆发速度被业内人士评价为超越了2023年的ChatGPT时刻,导致谷歌内部出现TPU严重过载和SRE警报不停的情况 [9][22] 核心功能与技术优势 - 模型具备多元素拼接能力,用户可上传含多个标签元素的图片并生成概述图像,例如支持一次性处理多达13个元素 [9][11] - 在图像编辑中展现出卓越的一致性保持能力,能够理解自然语言指令进行局部修改而不影响图片其他部分,被网友称为“一致性之王” [5][13] - 采用多模态语义对齐技术,从训练初期即学习文本、图像和代码数据,无需中间翻译环节,实现文字与图像的无缝切换 [25] - 支持交错式生成,能在多步骤会话中综合理解上下文(包括历史指令、上传图片和生成结果),确保主题一致性 [28][29] - 响应速度优化至秒级,实测生成单张高清图像约需13秒,具备快速迭代能力 [30] 多样化应用场景 - 在时尚领域可实现OOTD(每日穿搭)自由,能根据图片秒出穿搭清单或将动漫角色穿搭转化为真人风格图像,全程耗时仅三分钟 [11][13] - 支持生成人物合照,用户可通过指令与名人或商界领袖生成合影,满足追星需求 [14] - 可用于自制手办,用户上传人物或宠物图片后,模型能生成建模图及成品细节图,电商平台已有商家基于此提供手办制作服务 [15][17] - 具备强大的空间推理能力,能根据平面地图标签生成实景图像,或对城市建筑实景图进行模型重建和信息标注 [19][27] - 扩展至漫画分镜、线图上色、电影画面生成等创意领域,日均有新玩法被开发 [21] 行业影响与市场反应 - 谷歌发布模型当日,创意软件巨头Adobe股价应声下跌约2%,其过去一年股价累计下跌35%,部分归因于AI技术的颠覆性冲击 [32] - 对电商摄影、模特、修图师等职业造成冲击,例如中小商家聘请真人模特的日成本约为1500元/人,而AI可将流程压缩至分钟级 [33] - 行业向分化发展,批量平替需求可能被AI取代,但人类独有的故事性与情感细节仍是稀缺资源,从业者需转向审美判断、叙事构思及驾驭AI实现创作意图 [34] - 工具型平台如Adobe在AI时代的价值被重新定位为提供“最后一公里”服务,通过接入基础大模型并基于自身数据训练,打造更专业的落地产品 [35][36]