Workflow
Imagen 4 Ultra
icon
搜索文档
谷歌Nano Banana 2来了,设计师时代结束了?
第一财经· 2026-02-27 13:54
产品发布与迭代 - 谷歌于北京时间2月27日发布了其最新的图像生成模型 Nano Banana 2 (Gemini 3.1 Flash Image) [1] - 该模型是谷歌团队目前最好的图像生成和编辑模型,兼具了速度和此前Pro版的性能,同时价格也更便宜 [1] - 相比初代Nano Banana,Nano Banana 2大幅缩小了速度与画质的差距,能生成高质量、照片级的逼真图像 [16] 性能与基准测试 - 根据AI基准测试机构Artificial Analysis的数据,Nano Banana 2在文生图榜单中排名第一,在图像编辑榜单中排名第三 [1] - 大模型竞技场LMArena发布的排行榜同样显示,Nano Banana 2拿下全球第一,文生图测试得分为1280分,超越了GPT Image 1.5 (1268分) 和 Nano Banana Pro (1220分) [4] - 在谷歌AI Studio平台,Nano Banana 2输出每张1k图片的单价为0.067美元,输入为0.5美元,而Nano Banana Pro对应的价格是0.134美元和2美元,价格便宜一半 [4] 技术特性与功能 - 模型具备先进的世界知识、精确的文本渲染和翻译、主题一致性、精确的指令执行和视觉保真度提升等功能 [4] - 模型可以呈现生动的光照、更丰富的纹理、更清晰的细节 [4] - 在单个工作流中,最多能保持五个角色的形象相似性,以及最多14个对象的特征一致性 [16] - 模型支持高级文本渲染和本地化,能够直接在图像中生成或翻译多种语言的文本 [13] 应用案例与客户反馈 - 谷歌创建了名为“Window Seat”的程序进行演示,用户可指定世界上任一地区的窗户位置,模型能生成逼真画面并根据实时天气数据更新景色 [5] - 谷歌开发了“全球广告本地化器”演示应用,可将英语版本的图像广告翻译成不同语言(如日文、法语等)以适应国际市场 [13] - AI应用开发公司HubX通过集成Nano Banana 2,实现了74%–76%的延迟降低,人脸编辑工作流速度提升了4倍,同时没有牺牲专业级画质 [16] - 有博主测评显示,无论是人物表情控制、还是文本生成和排版,Nano Banana 2都比Pro版本有很大提升 [16] 当前局限性与挑战 - 有测试发现,Nano Banana 2在生成图像时存在位置错误、中文字体标注错误等问题 [6] - 模型输出水平不稳定,例如在网页版中连广州塔的位置都绘制错误 [11] - 或许是由于参数量较小的原因,Nano Banana 2对人体结构、复杂度动作、物体结构认知不足,在一些复杂场景(如人体倒立)上会有问题 [16] - 有评论认为当前AI生图的不真实感仍然较重,生成并不准确 [4]
谷歌 Nano Banana 2 一夜补齐短板,各种图解都能画,价格才是 OpenAI 一半
36氪· 2026-02-27 12:10
文章核心观点 谷歌最新发布的Nano Banana 2文生图模型,凭借其创新的“实时联网”能力、卓越的图像生成质量与细节、显著提升的文本渲染与主体一致性,以及极具竞争力的价格,在权威测评中登顶榜首,标志着文生图行业的竞争焦点已从单纯画面质量转向速度、理解力与生态整合[1][10][66] 产品核心能力与性能 - **实时联网与信息整合**:模型整合了Gemini的搜索能力,能够边理解、边检索、边生成,使图像内容更贴合真实世界的信息结构,例如生成基于真实地理和气象信息的“窗口视角”构图[1][5] - **图像质量与细节**:生成的图像细节丰富、真实感强,街景中的招牌、广告牌等细节可放大查看,人物神态、光影到位,难以一眼辨别为AI生成[2][3][15] - **信息图与可视化生成**:模型擅长将抽象概念可视化,能生成逻辑清晰、标注准确的信息图、示意图、食谱、医学解剖图等,承担知识组织与表达的角色[6][31][33][39][41] - **文本渲染与多语言支持**:解决了AI图像中文字生成的短板,生成的文字清晰、拼写准确、排版自然,支持图中内容的翻译和本地化,保持原风格不变[47] - **主体一致性**:在工作流中可保持最多5个角色的特征一致及14个对象的高保真度稳定输出,即使转换视角也能保持稳定,适合系列创作[51][54][56] - **分辨率与画幅**:支持从512px到4K的多分辨率,新增512px档位优化低延迟场景;画幅比例丰富,新增4:1、1:4等超长比例,满足横幅广告、竖屏长图等原生生成需求[64] - **风格与材质控制**:支持自由更换纹理、材质和颜色,可快速切换不同视觉风格,如生成“香蕉恐龙”、“水母跑车”等创意图像[58][62][63] 市场表现与行业地位 - **测评排名与性价比**:在权威测评Artificial Analysis榜单中,Nano Banana 2位列第一,其API价格为每千张图像67.0美元,仅为第二名OpenAI(133.0美元/千张)的一半,堪称“性价比之王”[8] - **行业竞争态势**:榜单头部模型之间分数差距非常小(如第一名1,272分与第二名1,268分),表明行业已进入竞争焦灼的“贴身肉搏”阶段[8][9] - **用户增长与生态整合**:Gemini应用月活跃用户达6.5亿,Nano Banana系列的“病毒式传播”是增长重要原因;模型已在谷歌产品体系中完成替换,并整合进Google Ads的广告生成建议能力[10][69][71] 应用场景与潜在影响 - **效率工具**:模型从“创意玩具”转向“可控的图像渲染引擎”,对普通用户更好用,对企业而言更具可规模化部署的潜力[66] - **专业领域应用**:在教育领域可将抽象概念可视化;在科研中可快速生成复杂模型示意图;在政策汇报、企业报告中可将冗长材料压缩为重点明确的可视化内容[43] - **设计领域影响**:其强大的可视化能力被用户认为将颠覆信息图表领域,甚至有人测试后惊呼“设计已死”[12][33] - **内容真实性管理**:针对AI造假担忧,谷歌为生成内容叠加SynthID水印并整合C2PA内容凭证体系,以进行溯源[8]
腾讯研究院AI速递 20250626
腾讯研究院· 2025-06-25 23:06
谷歌Gemini家族新成员 - Gemini Robotics On-Device是首个能在机器人本地运行的视觉-语言-动作模型,无需网络连接,适用于延迟敏感型应用 [1] - 该模型可执行高度灵巧任务如拉开拉链、折叠衣物,展现出优于其他本地模型的泛化性能和多步骤指令处理能力 [1] - 仅需50-100个演示即可适应新任务,能跨平台泛化到不同机器人如Franka FR3和Apollo人形机器人 [1] 谷歌Imagen 4/Ultra上线AI Studio - 谷歌将最新的Imagen 4和Imagen 4 Ultra文生图模型上线AI Studio和API,普通版每张约4美分,Ultra版约6美分,生成速度接近实时 [2] - Imagen 4 Ultra对prompt理解更精准,能生成高质量图像,支持每次生成最多四张1024×1024的图片,测试显示能生成逼真的超现实场景 [2] - 谷歌AI Studio未来将整合MCP服务器功能和Jules SWE Agent,界面也将更新,提供更统一的工作流和复杂操作能力 [2] OpenAI开发文档协作工具 - OpenAI正在开发ChatGPT文档协作功能,使用户能在平台上共同编辑文档并进行聊天交流,直接挑战微软Office和Google Workspace [3] - 这项功能是Sam Altman将ChatGPT打造为"超级智能工作助手"战略的一部分,可能进一步扩展至文件存储等生产力功能 [3] - 预计到2030年企业订阅ChatGPT将带来约150亿美元收入,但这可能加剧与最大股东微软的竞争关系 [3] ODDY工作室AI艺术创作 - AI技术复活世界名画与艺术家走秀视频爆红,ODDY工作室创作的《名作艺术秀》将梵高、达利、蒙娜丽莎等经典艺术元素以时装秀形式呈现 [4] - 视频重现多位艺术巨匠及其作品:梵高的《星夜》、波提切利的《维纳斯诞生》、克里姆特的《吻》、达利的超现实主义等 [5] - 最后场景中梵高、达利、莫奈、达芬奇等艺术大师同台相拥谢幕,这场AI视觉盛宴完美还原艺术作品细节并引发观众情感共鸣 [5] 出门问问TicNote AI硬件 - 出门问问推出全球首款Agentic AI硬件TicNote,3mm超薄设计可磁吸手机背面,支持120+语言转写,精度达98% [6] - 搭载Shadow AI智能体,能自动总结、生成思维导图,20小时超长续航,适用会议记录、课堂笔记等多场景 [6] - 产品展现"软硬结合+AI"战略成果,将Agent技术落地实用化,为职场人提供高效AI助手 [6] Readdy.ai出海增长 - AI设计工具Readdy.ai上线4个月实现近500万美元ARR,成为增长最快的AI出海应用之一,借助短视频在TikTok等平台病毒式传播 [7] - 产品成功关键在于生成界面质量超高,平衡专业设计规范与美学表现,让用户只需简单文本描述即可获得高完成度UI设计 [7] - 背后团队是打造蓝湖和MasterGo的中国顶尖设计工具团队,专注解决"无需设计基础也能产出专业界面"的痛点 [7] Delphi数字永生项目 - AI创业公司Delphi获红杉领投1600万美元A轮融资,创建数字化身让用户在赛博世界"永生",已有情感导师靠此年入百万 [8] - 创始人Ladjevardian的初衷是为中风无法说话的爷爷创建"数字大脑",将其回忆录中的智慧数字化,实现数字疗愈 [8] - Delphi提供多级订阅服务,可复制用户语言风格、知识体系和表达方式,用户可对每次对话收费并获85%以上收入 [8] 阿里云Agent应用变现 - 阿里云百炼平台与支付宝合作推出"AI打赏"功能,开发者的Agent应用可直接获取用户打赏,金额转入开发者个人支付宝账户 [10] - 开发者只需两步即可配置打赏功能:开启"支付宝AI收"功能并为Agent完成"赞赏卡片"配置,平台随机生成10元以内打赏金额 [10] - 百炼平台已有超10万开发者创建了30多万个Agent,未来将支持在任意渠道发布Agent并实现变现 [10] Biomni生物医学Agent - 斯坦福、基因泰克等机构联合开发通用生物医学AI智能体Biomni,能自主执行跨领域研究任务,无需预定义工作流程 [11] - Biomni由两部分组成:Biomni-E1(统一生物医学环境)和Biomni-A1(智能体架构,结合大语言模型推理与代码执行) [11] - 系统在遗传学、基因组学等领域表现出色,能分析可穿戴设备数据、处理复杂RNA数据并自主设计实验方案 [11] AI开源与应用竞争 - Linux基金会执行董事Jim Zemlin认为AI基础模型终将全面开源,真正的竞争将转向应用层 [12] - 开源模式能吸引顶尖人才共同创新,开发者参与开源的首要动机是"完成工作"而非金钱 [12] - 未来公司的竞争优势将体现在用户体验、专业服务等应用层面,而非基础模型本身 [12]
刚刚,首个能在机器人上本地运行的具身Gemini来了
机器之心· 2025-06-25 08:46
Gemini Robotics On-Device发布 - 谷歌DeepMind推出首个可直接部署在机器人上的视觉-语言-动作(VLA)模型Gemini Robotics On-Device,无需持续互联网连接即可运行[2] - 该模型基于Gemini 2.0多模态推理能力开发,属于Gemini Robotics系列,于2024年3月发布[3] - 模型经过优化可在机器人机体上高效运行,展现出强大的通用灵活性和任务泛化能力[4] 技术特性与优势 - 专为延迟敏感型应用设计,在连接中断或零连接环境中保持稳健性[5] - 相比之前最佳的本地端机器人模型表现出明显优势,在分布外任务和复杂多步骤指令方面优于其他本地端方案[15][16] - 只需50到100个演示即可快速适应新任务,展示出强大的基础知识泛化能力[21] 应用场景与测试表现 - 在七项不同难度灵巧操作任务测试中表现优异,包括拉开午餐盒拉链、画卡片和倒沙拉酱等[22] - 成功适配多种机器人平台,包括ALOHA机器人、双臂Franka FR3机器人和Apptronik的Apollo人形机器人[25][26][27] - 可执行通用指令,处理未见过的物体和场景,完成折叠连衣裙等灵巧任务及工业皮带装配等精密操作[26] 开发者支持 - 谷歌将发布Gemini Robotics SDK,支持开发者在MuJoCo物理模拟器中测试模型表现[7] - 开发者可使用SDK快速将模型适应到新领域,仅需少量演示即可完成适配[7] - 模型支持微调以获得更佳性能,是DeepMind首个可供微调的VLA模型[20] 相关技术进展 - 加州大学伯克利分校等机构联合推出的MuJoCo Playground获得RSS 2025杰出演示论文奖[8] - 谷歌同时宣布在AI Studio和Gemini API中推出图像生成模型Imagen 4和Imagen 4 Ultra[33] 产品策略调整 - 下调Gemini系列免费可用额度:Gemini 2.5 Flash从每日500次降至250次,Gemini 2.0 Flash从1500次大幅降至200次[30] - 公司表示这是伴随新模型推出的策略,会降低或取消上一代模型的免费套餐[32]