Workflow
图像生成模型
icon
搜索文档
一手实测Nano Banana 2,我总结了8大新玩法
新浪财经· 2026-02-27 23:22
产品发布与核心参数 - 谷歌正式发布名为Gemini 3.1 Flash Image的“香蕉2”模型,该模型结合了Nano Banana的能力与Flash的速度 [2] - 模型整体性能与Pro版本差距不大,部分场景略有退步 [4] - 核心优势在于价格直接减半,生成一张1K图片的成本从Pro版本的0.134美元降至0.0672美元 [4] - 生成速度大幅提升,API调用可做到2秒出图,每分钟能够稳定输出347至356张图片 [4] - 模型新增4:1、1:4、8:1、1:8等超宽及超窄图片比例,并新增512px低分辨率选项,与原有的1K、2K、4K共同为开发者提供更多选择 [4] - 新增内置web图片搜索功能,可实时从网上搜索参考图用于生成图片 [4] - 一致性能力得到增强,单任务可保持5个角色和14个物体的一致性 [4] 功能特性与玩法扩展 - 模型在“玩法层面”有显著扩展,例如可一键修改素材画幅,将低分辨率原图(如680x680)转换为2K并调整比例(如16:9),同时保持原图结构、UI元素和文字不变 [7][9][11] - 新增的极宽幅比例(如8:1)适用于Banner图、电商详情页、户外广告等设计场景,能提供极致沉浸感 [17] - 内置web图片搜索功能可降低模型幻觉并拓展使用场景,例如可基于实时搜索的天气数据生成准确的信息图,或生成特定动植物的图鉴 [26][28][30] - 模型支持批量出图,在特定平台上可一次性生成20张保持主体一致、风格统一的分镜图,或生成同一主体在8个不同场景下的系列图片 [32][34][36][54][55] - 理论上,配合特定平台的Agent功能,可一次性生成超过100张图片并保持一致性,且生成的图片可直接用于视频创作 [57][58] - 模型对提示词要求宽松,一句模糊的描述即可生成结果 [62] 平台合作与生态 - 平台lovart.ai在第一时间接入了“香蕉2”模型,其付费会员可继续以0积分体验 [2] - 该平台提供了独特的画布功能和新增的编辑功能(如文字编辑),与模型结合可实现更多实用玩法 [11][13][61] - 相较于模型原生的一次一张图的生成方式,在该平台上可进行批量生成,体验不同 [59] - 结合该平台的视频模型,由图片生成的内容可直接用于创作漫剧、短剧,形成内容生产线级别的能力 [58]
字节发完阿里发,Qwen-Image 2.0火线出击
36氪· 2026-02-10 20:52
阿里巴巴发布Qwen-Image 2.0模型 - 阿里巴巴发布新一代图像生成基础模型Qwen-Image 2.0,该模型支持长达一千个token的超长指令和2k分辨率,并采用更轻量的模型架构 [2] - 模型尺寸远小于Qwen-Image 2.0的20B,带来更快的推理速度 [2] - 该模型将图像生成与图像编辑两个能力整合到了一个模型中 [12] 模型核心能力与特点 - 模型升级重点是文字渲染,能够用超长提示词精确定义文字的字体、排版、格式,并做到不错的还原 [2] - 能够用毛笔字渲染《兰亭集序》全文,确保文字与画面协调,文字渲染失败的比例很低 [4] - 针对AI生图常见的“油腻感”问题进行了优化,色彩不会过于饱和,观感更像实拍 [5] - 支持一次性渲染数十个子图(例如24个画面),并能保持其中主体(如人物、画风)的一致性 [9] - 模型尺寸比1.0版本(约200亿参数)显著减小,但能力更强,且生成速度更快 [37] 模型性能基准测试表现 - 在AI Arena平台的文生图基准测试中,Qwen-Image 2.0的ELO得分为1029,排名第三,胜率为47.29% [8] - 在图生图(单图编辑)基准测试中,Qwen-Image 2.0的ELO得分为1034,排名第二,胜率为35.97% [12] - 在文生图基准中,排名第一的是谷歌的Gemini-3-Pro-Image-Preview(ELO 1050),排名第二的是OpenAI的GPT Image 1.5(ELO 1043)[8] - 在图生图基准中,排名第一的是谷歌的Gemini-3-Pro-Image-Preview(ELO 1042),排名第三的是字节跳动的Seedream 4.5(ELO 1011)[12] 与竞品的横向体验比较 - 在长指令遵循、长文本渲染方面具有优势,但在图像生成的真实感上仍稍逊于谷歌的Nano Banana Pro [2] - 在超长提示词文字渲染任务中,能准确还原图片布局、字体颜色和内容,而字节跳动的Seedream 5.0 Preview在还原文字内容上出现偏差,谷歌的Nano Banana Pro则存在部分文字模糊的问题 [15][17][19][22] - 在多子图生成任务(生成20个分镜的漫画)中,Qwen-Image 2.0未能完全按要求生成,画面存在不符合常理的现象;而谷歌Nano Banana Pro和字节Seedream 5.0 Preview均未能成功生成 [24][28] - 在超现实场景图像生成任务中,Qwen-Image 2.0生成的画面与提示词存在差距,而谷歌Nano Banana Pro的生成结果更符合提示词的关键描述 [30][32] - 字节跳动的Seedream 5.0 Preview在超现实场景生成中未遵循“像水晶般透明”的要求,但其余内容基本得到还原,画风更具科幻感 [36] 技术路径与未来规划 - 项目负责人表示,Qwen-Image 2.0升级的核心是“信息图”,未来一年团队将继续研究如PPT、多图海报、漫画等复杂“父图”的生成,进一步减少幻觉和错误 [14] - 计划在分层模型基础上,进一步强化模型的分层编辑能力,目标是让生成模型真正成为生产力工具,实现“分而治之”的复杂编辑流程 [14] - 通过提升VAE(变分自编码器)的重构能力和增强对密集细小文字的建模,解决了小文字信息密集导致压缩难度大、容易崩坏的问题 [39] - 采用生成与编辑融合的“二合一”模型,实现了能力相互促进,达到1+1>2的效果,编辑任务训练能反哺文生图,使其对提示词更敏感、遵循更精确 [32][34][35] 市场定位与商业化落地 - 模型能力的提升,尤其是在可控性和稳定性方面,使其能真正渗透到各行各业 [39] - 在电商领域,可用于海量商品的主图、详情图、广告素材图生成,如服装行业的模特换装、商品属性修改以及利用“信息图”能力生成商品详情长图 [39] - 在医疗等专业领域,可将复杂的流程通过信息图、流程图等形式可视化 [39] - 中国AIGC市场在应用落地和产业迭代速度上具有优势,丰富的应用场景能催生新的产业链并快速反哺模型迭代 [39] - Qwen-Image系列将与WPS等国民级应用合作,获取真实用户反馈和需求,形成从应用到技术的闭环迭代 [40] 行业趋势观察 - 图像生成领域的头部厂商已达成共识,模型不仅追求生成逼真画面,更要满足现实场景中对提示词精准遵循、文字准确渲染等关键需求,这些是决定模型生产力的核心要素 [41] - 随着模型不断优化迭代,图像生成有潜力成为企业和个人在信息处理、创作表达及决策支持等方面的强大助手 [41]
字节跳动图像生成模型Seedream 5.0上线,可免费体验
新浪财经· 2026-02-10 19:42
产品发布与可用性 - 字节跳动旗下图像生成模型Seedream 5.0于2月10日晚间正式上线 [1] - 该模型已在视频编辑应用剪映、其海外版CapCut以及字节AI创作平台小云雀中可用 [1] - 模型同时在即梦AI平台开启灰度测试,图片生成功能提供限时免费体验 [1] 模型核心增强功能 - 新模型主要增强体现在准确性、智能水平、更快的图像创建表现力以及联网知识整合能力 [1][2] - 在智能水平方面,Seedream 5.0能够深入理解提示词语义,生成与用户意图匹配度更高、细节更精准、布局更清晰的图像 [1][2] - 针对风格化效果,模型的图像到图像功能增强了风格化表现,提供更清晰细节、精致纹理和平衡的照明效果 [1][2] - 本次升级新增了编辑功能,用户可以通过控制笔刷精准选择并调整图像中的相应元素 [1][2]
刚刚,Seedream 5.0上线,字节又一新模型
36氪· 2026-02-10 14:56
公司产品发布与功能升级 - 字节图像生成模型Seedream 5.0正式上线,已在视频编辑应用剪映、剪映海外版Capcut及字节AI创作平台小云雀上线,并在即梦AI平台开启灰度测试,图片生成可限时免费体验 [1] - 新模型支持2K分辨率图片直出和4K AI增强分辨率输出,升级点包括首次支持检索生图、提升提示词理解准确性、支持更细节精致的纹理生成,并允许用户精确调整图像 [3] - 模型新增三大能力:智能水平增强以生成细节精准、布局清晰、文本渲染更佳的图像;增强风格化效果,提供更清晰细节与精致纹理;提升智能推理能力,包括多步逻辑与空间理解 [9] 产品性能与市场定位 - 官方将Seedream 5.0与Nano Banana Pro对标,并强调其更便宜,目前所有用户可免费使用20次,美国地区后续上线 [3] - 在对比测试中,Seedream 5.0能理解“静谧科技感”等抽象提示词,生成效果更美观、多样化,但在抽象语义理解、文字渲染和复杂逻辑构图方面仍存在技术瓶颈 [3][28] - 相比于Seedream 4.5,新模型在整体排版和架构设计上更为美观,但生成效果很难说有跨越式提升,用户对小版本迭代的感知正在变弱 [3][26][28] 实测能力分析 - 在具体测试中,Seedream 5.0能为《静夜思》生成包含关键元素(如“举头望明月”)的古诗插图,但未涉及原诗中的“床前”等细节 [10] - 模型具备联网搜索能力,输入“最近有很多家机器人都要参加2026春晚,生成一张已官宣参加春晚的机器人海报”后,能生成视觉元素准确、文字无乱码的海报,但未完全理解“已官宣”的限定条件 [12] - 对于细致描述如“特写电影感肖像…”,模型能输出逆光效果到位、发丝光晕和前景柔焦自然的照片级真实感图像 [14] - 在根据参考图生成图片的测试中,上传《闪灵》男主图片后,模型能生成面部一致、手拿灯笼和对联的拜年图片 [19][20] 与竞品对比 - 在生成“解释在特拉普修道院制作啤酒的过程”信息图的对比中,Seedream 5.0的步骤解释最为详细,但艺术设计感相比Nano Banana Pro稍弱 [3][5] - 面对超难提示词“生成一个用左手写字的人,背景有一个显示5:25的模拟时钟”,Seedream 5.0与Nano Banana Pro均未完全成功,后者生成图片中人物握笔手为左手,时钟时间约为5:30 [22] - 社交平台反馈认为,Seedream 5.0的智能水平、中文能力有提升,但都比不上Nano Banana Pro [7] - 此次Seedream 5.0预览版的升级优先考虑的是智能水平而非美观,旨在应对复杂的知识驱动型任务 [5] 行业发展趋势 - 当前头部图像模型的迭代路径正朝着提升理解能力、可控生成、编辑精度等实用能力升级 [28] - Seedream 5.0选择在检索增强、细节纹理、精准调整、4K增强上做优化,生成结果没有颠覆性效果,这或许更贴近用户的实际需求 [28]
字节又一新模型!Seedream 5.0上线,对标Nano Banana Pro
华尔街见闻· 2026-02-10 13:49
公司产品发布与部署 - 字节跳动旗下图像生成模型Seedream 5.0已在视频编辑应用“剪映”及其海外版“Capcut”上线 [1] - 该模型同时在字节跳动的AI创作平台“小云雀”上线,并在“即梦AI平台”开启灰度测试 [1] - 新模型对标“Nano Banana Pro”,并提供了图片生成的限时免费体验机会 [1]
智谱联合华为开源图像生成模型GLM-Image,24小时登顶Hugging Face榜单
新浪财经· 2026-01-16 08:45
模型发布与技术合作 - 智谱与华为联合开源新一代图像生成模型GLM-Image [1][2] - 该模型基于华为昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程 [1][2] 模型性能与市场反响 - 模型开源不到24小时即冲上全球知名AI开源社区Hugging Face榜单的全球第一 [1][2] - 在Hugging Face平台上,该模型在文本到图像类别中更新约4小时前,已获得至少2.44k的关注度 [3] 技术创新与架构 - GLM-Image采用了创新的“自回归+扩散解码器”混合架构,不同于开源常用的LDM方案 [1][2] - 该架构兼顾全局指令理解与局部细节刻画,克服了海报、PPT、科普图等知识密集型场景生成难题 [1][2] - 模型尤其擅长汉字生成任务,向探索以Nano Banana Pro为代表的“知识+推理”的认知型生成模型迈出了重要一步 [1][2] 训练验证与国产化可行性 - 实际训练性能足以达到相应计算设备的汇报性能上限 [1][2] - 验证了在国产全栈算力底座(昇腾硬件+昇思框架)上训练前沿模型的可行性 [1][2]
港股午评|恒生指数早盘跌0.55% 有色资源板块逆市走高
智通财经· 2026-01-15 12:08
港股市场整体表现 - 恒生指数下跌0.55%,下跌149点,收报26850点 [1] - 恒生科技指数下跌1.83% [1] - 早盘成交额为1639亿港元 [1] 钨行业动态 - 佳鑫国际资源股价上涨超过5%,再创新高 [1] - 黑钨精矿价格突破每吨50万元人民币 [1] - 多家钨企业上调长单报价 [1] 镍行业动态 - 印尼镍矿配额出现扰动 [1] - 力勤资源股价上涨超过10% [1] - 中伟新材股价上涨超过9% [1] 中国罕王公司动态 - 股价大幅波动,最终上涨8% [1] - 罕王黄金分拆上市计划已终止 [1] - 公司计划更名为“罕王黄金” [1] 海昌海洋公园公司动态 - 股价上涨超过10% [1] - 上海海昌海洋公园元旦假期首日客流量同比增长60% [1] 智谱公司动态 - 股价逆市上涨超过4% [1] - 公司宣布联合华为开源新一代图像生成模型 [1] 化肥行业与公司动态 - 中国心连心化肥股价再次上涨超过4% [1] - 全球尿素供应可能出现缺口 [1] - 公司在新年伊始密集回购股份 [1] 卧安机器人公司动态 - 股价上涨超过7% [1] - 公司近日发布了人形具身智能机器人onero [1] 覆铜板行业动态 - 建滔积层板盘中股价上涨近6% [1] - 公司近期宣布上调产品价格 [1] - 涨价预期将成为覆铜板行业主旋律 [1] 丘钛科技公司动态 - 股价回吐超过7% [1] - 花旗指出公司去年净利润低于该行预期 [1] 康龙化成公司动态 - 股价下跌超过5% [2] - 公司拟以折让8.5%的价格进行配股 [2] - 配股预计净筹资近13.2亿港元 [2] 在线旅游行业动态 - 携程集团-S股价大跌超过19% [2] - 公司因涉嫌垄断被市场监管总局立案调查 [2] - 同程旅行股价下跌超过11% [2]
智谱逆市涨超6% 日前宣布联合华为开源新一代图像生成模型
智通财经· 2026-01-15 11:09
公司股价与市场表现 - 智谱公司股价逆市上涨,截至发稿时涨幅达6.39%,报229.8港元,成交额为3.35亿港元 [1] 核心产品与技术进展 - 公司联合华为开源新一代图像生成模型GLM-Image,该模型基于昇腾Atlas800T A2设备和昇思MindSpore AI框架完成全流程训练 [1] - GLM-Image是首个在国产芯片上完成全程训练的SOTA多模态模型,实现了图像生成与语言模型的联合 [1] - 在API调用模式下,模型生成一张图片的成本仅需0.1元 [1] 机构观点与公司优势 - 东吴证券认为,作为纯大模型公司,其受益于云端规模效应和Agent/编程场景红利 [1] - 机构看好公司在本土大模型技术实力、开源生态布局以及政企本地化落地能力方面的优势 [1] - 公司有望受益于中国大模型行业从本地化部署向云端服务转型的长期趋势 [1]
刚刚,智谱和华为搞波大的:中国首个国产芯片训练出的SOTA多模态模型!
量子位· 2026-01-14 14:32
文章核心观点 - 智谱AI与华为合作,成功推出并开源了新一代图像生成模型GLM-Image,该模型是中国首个全程在国产芯片(华为昇腾A2)上完成训练的SOTA多模态模型,在复杂视觉文字生成和长文本渲染方面表现卓越,且API调用成本极低[1][7][36][44] 模型性能与技术亮点 - GLM-Image在CVTG-2K(复杂视觉文字生成)和LongText-Bench(长文本渲染)双榜单中均位列第一,尤其在文字准确率(Word Accuracy)上达到0.9116,归一化编辑距离(NED)达到0.9557,显著优于其他开源及闭源模型[5][6] - 模型采用创新的“自回归(9B参数)+ 扩散解码器(7B DiT参数)”混合架构,结合了自回归模型在理解语言与规划布局上的优势,以及扩散模型在细节渲染上的长处,从而能精准处理包含复杂文字和布局的图像生成任务[38][39][40][49] - 模型原生支持从1024x1024到2048x2048的任意比例和分辨率图像生成,无需裁剪或重绘,可直接生成适配各种社交媒体平台和商业用途的图片[21][53][54][56] 国产化训练与算力突破 - GLM-Image的整个训练流程,包括海量数据预处理、大规模预训练以及RLHF(人类反馈强化学习)后训练,全程基于华为昇腾A2芯片算力集群完成,证明了国产算力底座具备支撑前沿、复杂模型训练的能力[36][44][47][48] - 为实现高效训练,智谱与华为深度合作,对Mindspeed-LLM框架进行了深度优化,包括针对RL训练流程的专项优化、算子级深度重构以及利用昇思MindSpore框架实现计算与通信的完美并行,解决了国产芯片在复杂后训练中的适配问题,提升了大规模集群训练的稳定性和效率[45][47][50][51] 应用场景与成本优势 - GLM-Image尤其擅长中文文字渲染,能精准生成包含复杂汉字的海报、插画、AI手抄报等,解决了AI生图领域长期存在的“不识字”痛点[1][8][9][10] - 模型在多种实际应用场景中表现出色,包括生成符合“小红书”风格的社交媒体封面、具有艺术感的商业广告大片、逼真的人物摄影以及影视剧照风格的图像[12][13][17][22][27][28][32] - 该模型的API调用价格极具竞争力,生成一张图片的成本仅为0.1元人民币,为中小企业和开发者提供了极高性价比的AI生图接入方案[7][21][60] 行业意义与开源价值 - GLM-Image的成功开发与开源,打破了高性能图像生成模型对国外芯片和技术的依赖,为国内AI开发者提供了强大的信心和可行的技术路径[36][57][58][60] - 作为开源模型,GLM-Image不仅公开了模型权重,也分享了其创新的混合架构思路,对推动下一代图像生成技术的研究具有重要价值[58][60] - 该组合标志着“国产芯+国产模型”在AI关键领域取得了实质性突破,展示了从硬件到软件的全栈自主创新能力[1][7][48]
阿里Z-Image登顶开源图像生成模型榜单:1秒生图 千图仅需5美元
新浪财经· 2025-12-23 11:33
模型性能与市场地位 - 阿里6B参数的Z-Image Turbo超越32B参数的FLUX.2,登顶全球权威AI基准测试平台Artificial Analysis的开源图像生成模型榜单,成为当前最强开源图像生成模型 [1] - Z-Image Turbo的ELO评分达到1152分,刷新了该榜单的纪录 [1] - 该模型在H100部署环境下仅需1秒即可生成媲美百亿参数模型效果的图片 [2] - 模型支持16GB显存的消费级显卡部署,大幅降低了硬件门槛 [2] 成本与商业化 - Z-Image Turbo已在阿里云百炼平台上线,生成1千张图片的API定价为5美元,价格极具竞争力 [1] - 与榜单中其他主要开源模型相比,其定价显著低于FLUX.2的12美元/千张、腾讯混元3.0的100美元/千张以及HiDream-11的24美元/千张 [2] 技术架构与创新 - 模型采用单流扩散Transformer架构,将文本、图像潜变量与时间步条件统一为单序列输入,实现了跨模态融合,显著提升了参数利用率 [5] - 在推理层面,通过解耦式蒸馏与强化学习训练,将原本20步以上的推理流程缩短到8步,有效提升了图像生成速度 [5] - 模型集成了提示词增强器,能够先理解复杂任务再生成图片,例如能精准理解并生成匹配“一道残阳铺水中,半江瑟瑟半江红”此类诗句意境的图像 [5] 生成效果与能力 - 模型大幅提升了图像的真实感,能够精细还原皮肤纹理、发丝、服装材质等细节 [3] - 增强了中英双语文本渲染能力,即使在小字号、复杂排版或海报设计等高难度场景下,也能保持文字清晰、版式自然 [3] 市场反响与采用情况 - Z-Image Turbo于11月底面向全球开源,开源首日即登顶Hugging Face热榜第一位,并连续三周霸榜 [7] - 开源不到一个月,该模型的下载量已超过400万次,成为近期最受欢迎的图像生成模型 [7] - 业内人士评价该模型是业界性能最好、生成速度最快、价格最便宜的图像生成模型之一 [1]