阿里发布新一代图像生成模型Qwen-Image-2.0 - 公司发布新一代图像生成及编辑模型Qwen-Image-2.0,该模型在长文本理解、复杂指令执行、中文渲染及多图编辑等方面能力显著提升 [10] - 模型支持高达1K token的超长文本指令输入,并能准确理解复杂指令,生成准确率有所提升 [10] - 模型具备强大的图片编辑能力,支持上传单张或多张图片,通过提示词指令进行二次创作、修改等操作 [26] - 模型在中文文字渲染方面表现突出,能够高保真地生成包含汉字、数字、符号的图文内容,排版规整,笔锋清晰 [7][44][46] - 模型输出图像分辨率可达2K,保证了画面的质感 [10][56] - 模型在AI Arena国际评测平台的文生图基准测试中表现优异,Elo得分达到1029,排名第三,仅次于谷歌Gemini-3-Pro-Image-Preview和OpenAI的GPT Image 1.5 [46] 模型核心能力与实测表现 - 长文本与复杂指令理解:模型成功处理了长达700字的复杂提示词,生成了包含五宫格结构、时间推进、场景切换且人物形象稳定的《西游记》主题漫画 [13][14][16] - 结构理解与细节还原:模型根据600多字的详细描述,生成了结构准确、细节真实的汉堡分解信息图,食材层次、纹理质感(如牛肉饼焦化纹理、芝士拉丝)均得到很好呈现 [17][19] - 多重要求综合生成:模型在同时满足“画轴、立体城市、微缩建模、2K分辨率”等多重要求下,生成了完成度高的上海市3D景观图,场景结合自然,细节处理细致 [19][20][23] - 创意场景构建:模型根据提示生成了2K微距摄影视角下的“大米王国”场景,微缩人物比例、动作逻辑真实,米粒质感与景深处理接近真实摄影 [23][25] 多图编辑功能 - 多图融合编辑:模型能够将多张输入图片的元素进行融合,例如将指定人物的服装替换并置于另一场景中,且补足倒影等细节,效果自然无违和感 [26][29] - 单图扩展创作:仅输入一张人物照片,模型可根据指令生成一套包含多种角度和风格的九宫格影棚级写真 [8][31] - 图文结合创作:模型在生成或编辑图片时,能同时根据指令生成配套文案,例如为水墨画自动题诗 [34] 中文渲染与文字生成能力 - 信息图表生成:仅通过文字指令,模型即可生成包含数字、汉字、英文的完整科普信息图表,排版清晰可直接使用 [37] - 艺术字融合:模型能将文字与画作完整融合,生成如“雪雕版”文字景观,实现远看是字、近看是景的效果 [41] - 高密度文字排版:模型能高精度还原黑板报等复杂排版中的中文、数字及符号,文字几乎无乱码或假字,达到可直接阅读水平 [44][46] - 技术层面,模型通过升级VAE与生成模型,显著提升了小字号及高密度文字场景下的可读性,使PPT、信息图等场景能稳定输出可用图像 [50] 模型演进与技术特点 - 该模型是公司图像生成技术路线的集大成者,将此前分别侧重文字渲染准确性和图像细节质感的两条技术路线收拢合一,同时具备强大的生图和编辑能力 [48] - 模型在参数规模上做了进一步收敛,在提升能力的同时使模型体量更轻,降低了部署门槛,并提升了生图速度,适合高频提示词调试、实时展示等场景 [51] - 模型已通过阿里云百炼平台开通API邀测,开发者也可通过Qwen Chat免费体验 [58]
中文版Nano Banana来了?Qwen-Image-2.0炸场:1K长文本硬吃,中文生图彻底不拧巴了