阿里新一代图像生成模型Qwen-Image-2.0发布 - 公司发布了新一代图像生成及编辑模型Qwen-Image-2.0,该模型在长文本理解、复杂指令执行、中文渲染及多图编辑等方面表现突出[6] - 模型支持高达1K token的超长文本指令输入,并能准确理解复杂指令[8][9] - 模型具备强大的图片编辑能力,支持基于多张图片进行二次创作和修改[6][23] 长文本与复杂指令理解能力 - 模型能处理长达七八百字的超长提示词,并保持上下文一致性[9][11] - 在实测中,模型根据一段700字的复杂指令,生成了结构清晰、角色一致的《西游记》主题五宫格漫画[11][13] - 模型能根据600多字的详细描述,生成结构准确、细节真实的2K分辨率汉堡食材分解信息图[15][17] 多场景图像生成质量 - 模型能根据包含画轴、立体城市、微缩建模等多重要求的指令,生成上海市的3D景观图,细节处理到位[18][20] - 在微观景观生成测试中,模型能准确呈现“大米王国”的微缩比例关系与物理逻辑,画面质感接近真实微距摄影[20][22] - 模型支持一次性生成2K分辨率的图像,保证了画面的质感[6][50] 强大的图片编辑功能 - 模型支持多图编辑功能,例如可将不同图片中的人物、服装、背景进行自然融合,并补充细节如倒影[23][25] - 仅需上传一张照片并给出指令,模型即可生成一套影棚级的九宫格风格写真[27] - 编辑功能不仅限于图像,还能为生成的图像自动配文,例如为水墨画生成诗句[29] 卓越的中文文字渲染能力 - 模型在中文文字渲染方面表现突出,能准确生成包含数字、汉字、英文的科普信息图表[34] - 模型能将文字与画面艺术性融合,例如生成远看是字、近看是景的雪雕作品[35] - 在处理高密度排版如黑板报时,模型能做到文字1:1还原,笔锋和间距规整,达到可直接阅读的水平[37][39] 技术演进与模型性能 - 该模型是公司两条技术路线(生图能力与编辑能力)的融合成果,整体表现更稳定[41][42] - 针对小字号、高密度文字易模糊的行业痛点,模型在VAE与生成模型两端同步升级,显著提升了文字可读性[44] - 模型在参数规模上做了收敛,体量更轻,部署门槛更低,生图速度更快,适合高频调试与实时创作场景[45][46] 市场评价与可用性 - 在国际AI Arena模型评测中,Qwen-Image-2.0在文生图、图生图基准测试中成绩靠前,仅次于谷歌Nano Banana Pro和GPT Image 1.5[40] - 模型已通过阿里云百炼平台开通API邀测,开发者也可通过Qwen Chat免费体验[52][53]
中文版Nano Banana来了?Qwen-Image-2.0炸场:1K长文本硬吃,中文生图彻底不拧巴了