AI生图
搜索文档
谷歌NanoBanana2亮相,多模态步入产业重构深水区
中邮证券· 2026-03-18 12:23
行业投资评级 - 行业投资评级为“强于大市”,且评级为“维持” [1] - 行业收盘点位为825.13,52周最高为1021.75,52周最低为591.71 [1] 核心观点 - 报告核心围绕多模态AI技术的重大进展及其对内容产业的变革性影响展开 [4][5][6] - 谷歌发布Nano Banana 2,其性能登顶文生图全球榜首,在Artificial Analysis的文生图基准测试中位居全球第一,在Image Arena中其文生图斩获1279 Elo得分位居第一 [4] - Nano Banana 2通过成本腰斩与质量跃升,有望加速视觉创作的工业化落地与商业变现 [5] - 同期国内多模态赛道密集发力,阿里发布千问Qwen-Image-2.0,字节Seedance 2.0全量上线,印证2026年或成多模态商业化加速年 [6] - 多模态竞赛已步入产业重构的深水区,模型能否低成本、高质量赋能产业应用已成为未来核心竞争力 [6] 事件与模型分析 - **谷歌Nano Banana 2模型特点**:该模型将Gemini Flash的高速智能融入视觉生成,利用世界知识库实现精准文本呈现与翻译,保持最多5个角色和14个对象的一致性,支持从512p到4K的多种分辨率 [5] - **成本优势**:Nano Banana 2基于Gemini 3.1 Flash架构优化,定价降至每百万token 60美元,相较Nano Banana Pro输出定价(每百万token 120美元)价格腰斩 [5] - **产业影响**:模型迭代显著优化了AI生图的成本与效率曲线,能推动文生图转向生产力工具,助推AI图像生成进入工业化落地阶段,可广泛赋能广告、影视、游戏等B/C端内容生产及创意产业 [5] - **国内进展案例**:使用Seedance工具制作的2分钟科幻短片《归途》整体成本仅330.6元,而传统制作框架下成本可能高达数十万;首批接入Seedance 2.0的时刻互动,月产AI短剧超320分钟 [6] 投资建议 - **广告营销领域**:多模态AI有望推动营销物料边际成本指数级下降,建议关注易点天下、蓝色光标、浙文互联、分众传媒、引力传媒等 [7] - **IP储备与内容转化领域**:AI极大降低了文字IP向视频内容转化的门槛,海量优质IP储备的公司价值有望重估,建议关注光线传媒、中国电影、北京文化、华策影视、上海电影、中文在线、阅文集团等 [7] - **游戏产业领域**:多模态产业化加快有望推动游戏产业从美术降本增效向AI原生游戏变革,建议关注腾讯控股、网易、恺英网络、吉比特、完美世界、巨人网络、世纪华通、贪玩等 [7][8]
Nano Banana 2免费上线,超Pro版本100分登顶竞技场,API价格还对半砍了
36氪· 2026-02-27 17:50
产品发布与市场地位 - 谷歌旗下AI图像生成模型Nano Banana 2正式发布,其定位为在保持“Flash级”极速生成的同时,提供“Pro级”的专业能力[4] - 根据2026年2月25日的Text-to-Image Arena排行榜数据,Nano Banana 2(模型名:gemini-3.1-flash-image-preview)在“产品、品牌与传播”类别中综合排名第一,得分为1324分[3] - 在竞技场总榜中,Nano Banana 2的得分超越其前代专业版Nano Banana Pro(得分1264分)达100分,确立了新的领先地位[2][3][16] 技术性能与功能升级 - 生成速度大幅提升,实测生成单张图片仅需几秒钟[4] - 主体一致性能力增强,在单个工作流程中最多可保持5个角色的一致性和最多14个物体的保真度[8] - 指令遵循能力得到增强,能够更严格地执行复杂的文本提示[10] - 支持广泛的生成规格,图像分辨率覆盖从512像素到4K,并支持控制各种长宽比[12] - 视觉保真度升级,提供更生动的光照、更丰富的纹理和更清晰的细节[12] - 整合了网络搜索功能,可结合实时信息来增强生成内容的质量[6] 定价策略与商业模式 - Nano Banana 2提供免费使用 tier[6] - 其付费API(型号:gemini-3.1-flash-image-preview)的定价已公布,图像生成按分辨率收费[14] - 生成一张1K分辨率的图像成本为0.067美元(约合人民币0.46元),此价格比Nano Banana Pro便宜了一半[15] - 服务包含每月5,000次提示词的免费网络搜索增强额度,超出部分按每1,000次搜索查询14美元收费[15] 市场整合与行业影响 - 谷歌已将Nano Banana 2集成到其搜索服务和广告业务中[18] - 市场反馈积极,有观点认为该模型凭借强大的免费功能和极低的付费成本“再一次提高了标准”[19] - 极低的生成成本引发了关于其对设计行业潜在影响的讨论,有评论惊叹“设计师的时代要结束了”[21] - 用户已开始基于Nano Banana 2开发创新应用,例如将其与视频生成模型(如Seedance 2.0)结合使用[22][24]
谷歌Nano Banana 2来了,设计师时代结束了?
第一财经· 2026-02-27 13:54
产品发布与迭代 - 谷歌于北京时间2月27日发布了其最新的图像生成模型 Nano Banana 2 (Gemini 3.1 Flash Image) [1] - 该模型是谷歌团队目前最好的图像生成和编辑模型,兼具了速度和此前Pro版的性能,同时价格也更便宜 [1] - 相比初代Nano Banana,Nano Banana 2大幅缩小了速度与画质的差距,能生成高质量、照片级的逼真图像 [16] 性能与基准测试 - 根据AI基准测试机构Artificial Analysis的数据,Nano Banana 2在文生图榜单中排名第一,在图像编辑榜单中排名第三 [1] - 大模型竞技场LMArena发布的排行榜同样显示,Nano Banana 2拿下全球第一,文生图测试得分为1280分,超越了GPT Image 1.5 (1268分) 和 Nano Banana Pro (1220分) [4] - 在谷歌AI Studio平台,Nano Banana 2输出每张1k图片的单价为0.067美元,输入为0.5美元,而Nano Banana Pro对应的价格是0.134美元和2美元,价格便宜一半 [4] 技术特性与功能 - 模型具备先进的世界知识、精确的文本渲染和翻译、主题一致性、精确的指令执行和视觉保真度提升等功能 [4] - 模型可以呈现生动的光照、更丰富的纹理、更清晰的细节 [4] - 在单个工作流中,最多能保持五个角色的形象相似性,以及最多14个对象的特征一致性 [16] - 模型支持高级文本渲染和本地化,能够直接在图像中生成或翻译多种语言的文本 [13] 应用案例与客户反馈 - 谷歌创建了名为“Window Seat”的程序进行演示,用户可指定世界上任一地区的窗户位置,模型能生成逼真画面并根据实时天气数据更新景色 [5] - 谷歌开发了“全球广告本地化器”演示应用,可将英语版本的图像广告翻译成不同语言(如日文、法语等)以适应国际市场 [13] - AI应用开发公司HubX通过集成Nano Banana 2,实现了74%–76%的延迟降低,人脸编辑工作流速度提升了4倍,同时没有牺牲专业级画质 [16] - 有博主测评显示,无论是人物表情控制、还是文本生成和排版,Nano Banana 2都比Pro版本有很大提升 [16] 当前局限性与挑战 - 有测试发现,Nano Banana 2在生成图像时存在位置错误、中文字体标注错误等问题 [6] - 模型输出水平不稳定,例如在网页版中连广州塔的位置都绘制错误 [11] - 或许是由于参数量较小的原因,Nano Banana 2对人体结构、复杂度动作、物体结构认知不足,在一些复杂场景(如人体倒立)上会有问题 [16] - 有评论认为当前AI生图的不真实感仍然较重,生成并不准确 [4]
告别“鬼画符”!谷歌Nano Banana 2深夜空降,强势修复文字短板,AI生图进入“闪电时代”,价格直降37%
金融界· 2026-02-27 10:13
产品发布与定位 - 谷歌于2月27日低调发布了新的图像生成模型Nano Banana 2,其官方代号为Gemini 3.1 Flash Image,正在逐步取代旧版成为Gemini平台的默认图像生成模型 [1][2] - 该模型定位为“用Flash的速度,跑出Pro的质量”,旨在将过去Pro版本独占的能力下放给Flash用户 [2] - Nano Banana Pro版本将退守至对事实准确性要求极高的专业场景 [2] 技术规格与性能提升 - 模型底层架构从Gemini 2.5 Flash升级至3.1,输出分辨率从2K提升到4K,并支持从512px到4K的多种分辨率和宽高比 [2] - 核心升级包括更强的世界知识、更精准的文本渲染、更可控的多图一致性,以及原本Pro才有的推理与指令遵循能力 [2] - 模型接入了Gemini的实时搜索和图像检索,能根据地理位置、天气数据、文化符号校准画面细节,实现从“照着风格画画”到“先理解世界,再动笔”的转变 [3] - 在多语言文本渲染上取得显著进步,中英日等多语言混排基本稳定,乱码明显减少,可可靠生成漫画对白、海报文案等 [3] - 在“时钟难题”上有所改善,能准确生成可读时钟,但在处理“时钟+满杯红酒”等多物体复杂场景时仍可能出错 [4] - 模型支持在单个工作流中保持最多5个角色的外貌一致性,以及最多14个物体的特征保真 [8] 定价策略与成本效益 - 定价按像素计算:1000像素图像每张约0.0672美元,2000像素约0.101美元,4K图像约0.151美元 [5] - 相比Nano Banana Pro(2K图像0.134美元/张,4K图像0.24美元/张),Nano Banana 2在4K分辨率下价格降低约37% [5] - 推理速度接近翻倍,生成4K图像时间可缩短至不到一分钟 [5][6] - 单张图像生成成本约为0.067美元,约为Nano Banana Pro的一半 [6] 战略意义与行业影响 - 谷歌正试图将AI生图从“创意玩具”转变为“工业生产线”,核心逻辑是提供可预测的工业化输出 [7] - 通过注入世界知识、解决文字排版顽疾、提供可控的多图一致性,使生成物可直接用于广告、电商、UI设计等商业场景,减少人工修图需求 [7][8] - 示例应用展示了其向流程化、批量化生成符合业务逻辑的视觉内容方向发展 [8] - Nano Banana 2的出现标志着AI生图竞赛进入“画得多快、多准、多便宜”的阶段,谷歌意图通过“Pro级能力 + Flash级速度”的组合在规模化应用上拉开差距 [9] - 在“信息图表准确性”、“指令遵循度”、“事实性”等基准测试指标上,该模型已显著领先于部分主流竞品 [9] - 该模型可能成为企业用户将AI生图从“试点”纳入“生产流水线”的拐点 [9]
谷歌生图新王Nano Banana 2深夜突袭,性能屠榜速度飞升,价格腰斩
36氪· 2026-02-27 08:15
产品发布与核心性能 - 谷歌正式发布其最强图片生成和编辑模型Nano Banana 2 (Gemini 3.1 Flash Image),该模型已在谷歌Gemini应用、搜索、AI Studio等全线产品中上线 [1] - 该模型兼具Pro级功能与Flash级速度,在世界知识、图像质量、推理能力和主体一致性等方面实现全面升级 [2] - 在基准测试中,Nano Banana 2大幅超越了GPT-Image 1.5、Seedream 5.0 Lite、Grok Imagine Image Pro等业界领先模型,配合思考模式、文本和图像搜索工具则全面超越Nano Banana Pro [2] 实测性能与关键升级 - 实测显示,Nano Banana 2可在1分钟内生成4K图片,生成图片细节逼真度增强,指令精准执行上表现超出预期 [4][31] - 模型在文字渲染能力和中国传统文化储备方面有提升,例如能较准确地生成“一只大熊猫写毛笔字”的图片,文字笔锋流畅且基本无错别字 [12] - 模型在处理复杂场景方面有明显提升,例如能生成包含多人、反射、多变光照的复杂城市场景,细节密度远超预期 [23] - 模型解决了部分“时钟难题”,能够根据“传统时钟 21:35”的提示词较精准地生成时钟,但面对更复杂的“时钟+满杯红酒”多重难题时,生成仍不准确 [24][28] - 模型在特殊角度透视还原上比较逼真,能准确控制仰视视角下的人物比例和透视关系,形态没有畸变 [14] - 在多人物互动与情感交流的生图体验中,能准确还原场景、动作和表情,但在眼泪折射等极细微流体形状上仍不自然 [17] - 模型具备精准的指令遵循能力,例如能根据多张输入图片,在保持原图一致性的基础上替换指定物体,并符合物理规律 [19] 核心技术升级点 - 先进世界知识:模型调用Gemini的真实世界知识库,并结合网络搜索获取实时信息和图像,能更准确地呈现特定主题,用于创建信息图表、数据可视化等 [32] - 精准文本渲染与翻译:可为营销素材或贺卡生成准确易读的文本,并能翻译和本地化图像中的文字 [32] - 更强创作控制力:在单个工作流中,最多可保持五个角色的形象相似性,以及最多14个对象的特征一致性 [35] - 生产就绪规格:支持从512px到4K的多种分辨率和宽高比,新增了4:1、1:4、8:1和1:8等原生宽高比支持 [35][39] - 画质提升:呈现更鲜艳的光照、更丰富的纹理和更清晰的细节,在保持速度的同时实现高质量画面效果 [35] - 可配置的思考模式:用户可调整思维水平,使模型在渲染前能推理复杂提示,从而提高输出质量和提示遵循度 [39] 定价策略与产品定位 - Nano Banana 2的价格相比Nano Banana Pro不增反降,在谷歌AI Studio平台,输入图片的单价从2美元降至0.5美元,输出图片的单价也从0.134美元减半至0.067美元 [8] - 按照谷歌设计,Nano Banana Pro适合对事实准确性要求最高的专业任务,而Nano Banana 2则适合快速生成、精确指令遵循和图像搜索集成的工作场景 [10][40] - 在谷歌Gemini应用,Nano Banana 2已取代Fast、Thinking和Pro版本中的Nano Banana Pro,但Pro和Ultra订阅用户仍可按需继续选择使用Nano Banana Pro [10][40] 应用场景与生态整合 - 谷歌构建了名为“靠窗座位(Window Seat)”的示例App,利用Nano Banana 2的知识和网络图像搜索来创建受世界各地位置和实时天气数据启发的逼真窗景 [37] - 谷歌开发了“全球广告本地化器(Global Ad Localizer)”演示App,可将广告翻译成不同语言并适配图像中的文字,以适应国际市场 [38] - “宠物护照(Pet Passport)”演示版只需用户宠物的一张照片,即可确保其在生成的不同目的地图片中保持相同的形象 [39][43] - Nano Banana 2已在谷歌全线产品上线,包括Gemini应用、搜索(新增141个国家和地区及8种语言支持)、AI Studio+API、Google Cloud的Vertex AI以及Flow(对所有Flow用户免费) [40] 行业竞争格局 - 全球AI生图赛道竞赛升级,国内字节Seedream 5.0、阿里Qwen-Image-2.0等国产模型密集出击 [42] - 谷歌正将竞争从单纯的画质比拼,引向世界知识集成、精准指令执行和生产效率的综合较量 [42] - 随着Nano Banana 2发布,谷歌图像生成产品矩阵实现更清晰切割,Pro版驻扎专业高地,Flash版以更快、更便宜、足够好的策略抢占规模化应用场景 [42] - AI图像生成的竞赛已从“能不能画”迈入“画得多快、多准、多便宜”的新阶段 [42]
李飞飞团队新作:简单调整生成顺序,大幅提升像素级图像生成质量
量子位· 2026-02-14 18:09
文章核心观点 - 李飞飞团队提出的Latent Forcing方法,通过重排扩散模型的生成轨迹,强制实现“先定结构、后填细节”的逻辑,从而在保持100%原始像素精度的同时,解决了传统AI生图方法在效率与保真度之间的取舍矛盾,并在多项指标上刷新了SOTA [4][5][6][26] 传统方法瓶颈 - 传统像素级扩散模型在降噪过程中,高频纹理细节会干扰低频语义结构,导致模型在未明确整体轮廓时就预测局部像素颜色,违背视觉生成的自然逻辑,容易产生结构混乱和速度慢的问题 [8][9] - 潜空间模型通过预训练tokenizer将图像压缩到低维空间,生成速度快,但依赖预训练解码器会引入重建误差,并丧失端到端建模原始数据的能力 [11][12] Latent Forcing方法原理 - 该方法核心是对扩散轨迹进行重新排序,在不改变基础Transformer架构的前提下,引入双时间变量机制,让模型同时但异步地处理像素和潜变量 [14][16] - 在生成初期,潜变量率先完成降噪,在大尺度上确立图像的语义骨架;在结构确定后,像素部分再进行精细化的降噪填色 [19] - 生成过程结束后,用于结构引导的潜变量“草稿”被直接丢弃,最终输出是100%无损的原始像素图像,无需解码器,整个过程端到端、可扩展,且几乎不增加计算量 [20][21] 性能表现与突破 - 在ImageNet-256任务中,相同计算规模下训练80个epochs,Latent Forcing的条件生成FID分数从此前最强的像素级模型JiT+REPA的18.60降至9.76,接近腰斩 [22] - 在200个epoch的最终模型(ViT‑L规模)下,Latent Forcing实现了条件生成FID 2.48(guided)、无条件生成FID 7.2(unguided)的分数,创下像素空间扩散Transformer新的SOTA [23][24] - 该方法打破了学术界“必须通过更高倍率的有损压缩才能换取好的FID表现”的普遍观点,证明在保持100%原始像素精度的情况下,性能可以超越有损模型 [25][26] 研究团队 - 该研究项目由斯坦福大学教授李飞飞领衔,其他共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli,密歇根大学教授Justin Johnson作为合作作者参与 [27][28][29]
这个春节P图不求人!小红书开源图像编辑新SOTA
量子位· 2026-02-12 19:00
FireRed-Image-Edit模型发布 - 小红书基础模型FireRed-Image-Edit正式亮相,在AI生图领域展现出强劲实力 [2][3] - 该模型在处理复杂编辑指令、风格化转换及高精度文字编辑等多个核心指标上表现超强,在多项权威测试中达到业界领先水平 [3] - 项目代码、技术报告和demo网页已开源,模型权重也即将在未来几天开源 [6] 模型性能与技术优势 - 模型在ImgEdit、GEdit等多个榜单中取得了SOTA结果,凭借更精准的理解力、更强的ID保持度及高效的架构脱颖而出 [3] - 其高效架构背后的技术底座来自小红书Super Intelligence Team在图像生成与编辑领域的重要探索 [5] - 模型通过一套数据引擎与三阶段训练逻辑构建,包括预训练、微调和强化学习阶段,以提升指令泛化理解能力和训练效率 [13][16] 评测标准与数据构建 - 团队推出了RedEdit Bench深度评测方案,包含15个子任务,覆盖画面增删改、人像美化、低画质增强等高频实战场景 [9] - 该Bench对编辑模型通用能力的评估精度相比ImgEdit和GEdit更高,并计划开源以为开源社区建立新维度的评估标准 [10][11] - 模型构建了图像编辑数据生产引擎,通过三条路径规模化产出训练对,并采用“检查—补齐”流程解决长尾任务样本稀缺问题,确保数据质量 [13][14] 核心功能与能力展示 - 模型具备强大的指令遵循一致性,通过随机指令对齐机制使模型能真正理解语义与图像的对应关系 [18][20] - 在文字编辑方面,创新性地提出了Layout-Aware OCR-based Reward,在强化学习阶段惩罚错别字、字符错位、大小异常和布局崩坏,以提升文字编辑准确性并保持原始风格 [26][27][28] - 模型支持创造力场景生成和多参考图生成,包括风格迁移或多图融合,并能将超分、去模糊、去噪及光影增强等底层视觉任务统一纳入指令微调,实现一键画质调整 [33][44] 未来计划与社区贡献 - 公司计划后续进一步提升基础模型在人像美化、一致性、文字上的编辑能力 [49] - 将在未来几个月内持续开源更新版本和文生图基座模型 [49] - 通过开源FireRed-Image-Edit,公司希望为社区提供一个高效、可控、高质量的基座 [48]
春节前打响“百模大战”:AI生图为何突然“开窍”了?
新浪财经· 2026-02-12 15:27
行业核心观点 - 2026年初,阿里巴巴的Qwen-Image-2.0与字节跳动的Seedream 5.0同日发布,标志着AI生图行业竞争进入新阶段,行业焦点已从早期的创意探索转向高效生产,核心能力体现在可控生成、文字还原和多场景适配等方面 [2][31] - AI生图行业在不到四年时间内从“破圈”走向“成熟”,2025年谷歌Nano Banana凭借轻量化优势推动了技术普惠,2026年则成为各大模型厂商的角力场 [3][4][30] - 行业竞争逻辑发生根本变化,从比拼生成质量和创意发散,转向比拼可控性、场景适配性和生态整合力,以满足商用场景的批量生产需求 [24][51] 技术演进与核心能力突破 - **关键分水岭**:2025年,谷歌Nano Banana引爆“轻量普惠”时代,降低了使用门槛,实现了图文原生融合和快速出图 [5][32] - **最新模型突破**:阿里巴巴Qwen-Image-2.0首次将图像生成与编辑功能统一到单一模型架构,提升了出图效率;字节跳动Seedream 5.0增强了对提示词的理解能力,支持检索生图、多步逻辑推理和联网知识整合 [5][32] - **四大核心能力**:1) **多模态原生融合**:解决了图内文字乱码问题,能精准生成文本;2) **物理世界对齐**:生成的画面符合真实世界的物理规律;3) **可控生成**:能精准控制细节,支持局部修改和多轮编辑而不影响整体;4) **动态叙事**:能理解复杂业务逻辑,主动推理并输出完整交付物 [6][33] 主要模型技术路线与场景适配 - **模型共性**:主流模型均主打端到端多模态图像生成,功能上一站式搞定(文生图、图生图、编辑等),能理解创作意图,且生成效率高,几秒钟即可出图,并能适配商用场景的交付标准 [8][9][35][36] - **阿里巴巴 Qwen-Image-2.0**:采用MMDiT多模态扩散架构,整合生图与编辑能力,擅长中文创作场景,能解析最多1000个字符的中文长指令,对中文文字(如古诗词)的生成和排版还原度较好,适用于海报、广告图等场景 [11][38] - **字节跳动 Seedream 5.0**:采用混合多模态架构,加入RAG知识库和联网检索能力,能通过检索获取最新信息后再生成图片,对内容时效性要求高的场景(如热点事件、新产品)有帮助,同时擅长理解抽象指令,进行创意内容生成 [16][19][46][48] - **谷歌 Nano Banana**:采用Flow-Matching架构,在光影、材质、空间关系等物理细节还原上表现自然,角色一致性高,适合需要多图风格统一的需求(如故事绘本、IP设计),作为轻量化模型,硬件门槛低,普通笔记本即可运行,但中文理解能力和时效性内容支持有限 [23][50] 行业竞争格局与未来趋势 - **竞争焦点转变**:2026年,行业核心需求从创意探索转向高效生产,评价指标变为可控性、场景适配性等,Midjourney因在精细化控制和批量生产方面存在局限,市场声量下降 [23][24][51] - **当前三大竞争维度**:1) **可控性**:需求匹配度成为关键,如Seedream和Qwen在商用场景下的可用率更高;2) **场景适配性**:厂商深度绑定具体场景以建立壁垒,如Seedream集成到剪映切入短视频制作,Qwen瞄准电商和办公场景,Nano Banana面向专业摄影和影视领域;3) **生态整合力**:通过免费试用、简化操作(如Qwen的千问APP)等方式降低使用门槛 [24][25][52] - **未来发展方向**:1) **普及程度更高**:轻量化技术使更多设备可流畅运行,免费试用和低成本部署选项增加;2) **更懂用户需求**:AI能理解指令背后的意图,提供更个性化的方案;3) **场景适配加深**:技术与电商、短剧制作、设计等具体场景结合更紧密,实现一键生成和流程自动化;4) **使用门槛降低**:可能只需上传参考图加简单描述即可生成结果 [25][26][52][53]
阿里、字节同日上新图像生成模型,对标Nano Banana Pro
每日经济新闻· 2026-02-12 08:50
行业动态:中美AI图像生成模型竞速 - 2025年2月10日,阿里巴巴与字节跳动同日发布新一代图像生成模型,均对标谷歌的Nano Banana Pro [1][2] - 阿里巴巴发布Qwen-Image-2.0模型,聚焦语义理解与实用编辑,统一了生成与编辑架构,并强化了中文汉字渲染能力,能更好理解超长复杂指令 [1] - 字节跳动发布Seedream5.0Preview模型,主打检索生图与精细调控,显著提升提示词理解准确率,支持更精细的纹理生成与可控调整,深度适配内容创作全流程 [1] 技术进展与模型性能 - Qwen-Image-2.0支持1K token的超长文字输入和2K高分辨率输出,可准确渲染复杂指令,生成专业PPT及信息图 [2] - Qwen-Image-2.0在原有两大模型基础上全新升级,首次将图像生成和编辑统一到一个模型中,以更轻量架构实现生图和改图性能的大幅提升 [2] - Seedream5.0Preview支持2K和4K分辨率输出,用户可在即梦平台免费体验2K输出效果 [2] - 当前AI生图文字细节崩溃的主要原因包括:VAE(变分自动编码器)技术对图像中文字(尤其是小尺寸文字)处理的局限性,以及图像生成模型自身建模能力的限制 [3] 应用场景:电商领域 - AI生图是当前电商客户除数字人外,消耗token(最小文本单元)较大的需求 [1][6] - 电商场景是Qwen-Image模型落地的主流场景之一,Qwen-Image-2.0针对电商场景在商品生产细节、文字可控度及二次编辑等方面进行了优化 [1][6] - 新模型可将商品详情页描述图、模特穿搭效果等任务结合完成,通过将图片编辑和生成融合在一个模型中,提升电商卖家的效率,推动企业级应用落地 [6] 应用场景:漫剧市场 - AI技术正逐步渗透漫剧市场,主流制作途径为AI生成图片,再经图片视频化,搭配AI配音和字幕完成出片 [4] - 据东吴证券研报,AI可使漫剧制作成本降低90% [4] - 中文在线AI动漫部总经理表示,AI将传统漫剧的11个制作流程精简为4个步骤(剧本创作、图片生成、图转视频、后期加工),大大提高生产速度 [4] - 艾媒咨询数据显示,51.2%的用户肯定AI在降低漫剧制作成本方面的价值,47.7%的用户肯定其在加快IP转化方面的价值 [5] - 同时,47.1%的用户指出AI漫剧在画面风格统一性上存在不足,46.7%的用户指出其在配音情感表现上存在不足 [5] - AI漫剧目前极为依赖“抽卡”生成模式,最终效果高度依赖AI自身的理解与推理能力,人工干预主要在于打磨提示词 [5] 市场展望与行业影响 - 2025年图像生成技术正逐步渗透到电商场景与漫剧市场中 [2] - 随着技术进步,行业关注2026年是否能迎来规模化应用市场 [2] - AI技术对漫剧行业的影响兼具机遇与挑战,既通过降本增效推动行业升级,也因画风、配音等质量问题,倒逼行业在追求规模化的同时强化内容创意与品质把控 [5]
对标Nano Banana Pro 阿里、字节同一天发布图像生成模型 AI生图将迎来规模化应用市场?
每日经济新闻· 2026-02-11 23:51
阿里与字节发布新一代AI图像生成模型 - 2025年2月10日,阿里巴巴与字节跳动同日发布新一代图像生成模型,均对标谷歌Nano Banana Pro [1] - 阿里巴巴发布Qwen-Image-2.0,聚焦语义理解与实用编辑,统一了生成与编辑架构,并强化了中文汉字渲染能力,能更好理解超长、复杂的实用化指令 [1] - 字节跳动发布Seedream5.0 Preview,主打检索生图与精细调控,显著提升提示词理解准确率,支持更精细的纹理生成与可控调整,深度适配内容创作全流程 [1] 模型技术细节与性能 - Qwen-Image-2.0支持1K token的超长文字输入和2K高分辨率输出,可准确渲染复杂指令,轻松生成专业的PPT及信息图 [3] - Qwen-Image-2.0在Qwen-Image和Qwen-Image-Edit两大模型基础上全新升级,首次将图像生成和编辑统一到一个模型中,以更轻量的架构实现了生图和改图性能的大幅提升 [3] - Seedream 5.0 Preview支持2K和4K分辨率输出,用户可在即梦平台免费体验2K输出效果 [3] - 当前图像生成模型普遍采用VAE技术,其重构过程对图像中文字的处理影响显著,特别是小尺寸文字,当文字内容较多时生成难度将显著提升 [4] - 图像生成的真实度与细节还原质量受限于VAE的处理能力上限以及生成模型的建模能力 [4] 电商场景的应用与优化 - 算力运营商透露,AI生图是当前电商客户除数字人外,消耗token(最小文本单元)比较大的需求 [1][7] - 千问大模型高级解决方案架构师表示,电商场景是Qwen-Image模型落地的主流场景之一,Qwen-Image-2.0基于电商场景在商品生产细节、文字可控度及二次编辑等方面进行了优化 [1][7] - 在电商场景中,商品详情页描述图、模特穿搭效果等可以更好地结合新的图像生成模型完成 [7] - 相较于上一代模型需要通过二次编辑完成可控的商品出图,新模型将图片编辑和生成任务融合在一个模型中,从而提升电商卖家的效率 [7] AI漫剧市场的应用与影响 - AI生图技术正逐步渗透到漫剧市场,主流制作途径是AI生成图片,再将图片视频化,并搭配AI配音和字幕来完成出片 [5] - 东吴证券研报指出,AI可以使漫剧制作成本降低90% [5] - 中文在线AI动漫部总经理表示,AI把传统漫剧的11个繁复制作流程精简为剧本创作、图片生成、图转视频、后期加工4个步骤,大大提高生产速度 [5] - AI漫剧极为依赖“抽卡”生成模式,最终效果几乎完全取决于AI自身的理解与推理能力,操作者主要能做的只有打磨提示词 [5] - 艾媒咨询数据显示,51.2%的用户肯定AI技术在降低漫剧制作成本方面的价值,47.7%的用户肯定其在加快IP转化方面的价值 [5] - 同时,47.1%的用户指出AI漫剧在画面风格统一性上存在不足,46.7%的用户指出其在配音情感表现上存在明显不足 [5] - 行业分析认为,AI技术通过降低制作成本、加快IP转化推动漫剧行业升级,但也因画风统一度、配音质感等问题,倒逼行业在追求规模化的同时强化内容创意与品质把控 [6] 行业发展趋势 - 当前AI生图已不局限于视觉创作,正进一步走向企业级、规模化应用的赛道 [1] - 随着AI生图技术进步,行业关注其能否在2026年迎来规模化应用市场 [1] - 中美在AI领域的竞速正在持续 [2]