阿里深夜王炸,Qwen-Image-2.0实测:换装、合影全搞定,写字不再「鬼画符」
36氪·2026-02-12 08:32

阿里发布新一代图像生成模型Qwen-Image-2.0 - 阿里通义千问团队发布新一代图像生成基础模型Qwen-Image-2.0 [2] - 该模型支持原生2K分辨率(2048x2048像素),并能处理长达1000个token的复杂指令 [4] - 模型采用了更轻量的架构,模型尺寸远小于前代Qwen-Image 1.0的20B,带来更快的推理速度 [4] 模型核心能力与性能 - 核心卖点为长指令遵循与强大的渲染能力,解决了传统AI画图因输入长度限制导致的“抽卡”式随机性问题 [5][7] - 在Ai Arena全球AI竞技场中,Qwen-Image-2.0的ELO得分达到1029,排名第三,进入第一梯队 [53][54] - 在文本一致性和指令遵循度等特定指标上超越了部分老牌闭源模型 [53] 中文语义理解与文字生成优势 - 在中文语境下表现优异,能准确理解“豹子头林冲”等文化典故,避免望文生义 [9][12] - 具备出色的文字生成能力,能按要求生成包含表格、特定布局和字体颜色的图像,适合制作海报等商用设计 [15][18][55][60] - 在长达700至800字的复杂逻辑指令测试中,能清晰还原分镜叙事和内容布局,展现了强大的中文语义还原能力 [8][12][15] 图像编辑与多模态处理能力 - 不仅支持文生图,还具备强大的图像编辑功能,如“三视图”生成、换装、场景替换、人物合影及风格迁移 [30][33][40][48][50] - 在图像编辑任务中展现出高一致性,能较好地保持人物特征、服装及环境融合 [40][48] - 整个生成和编辑过程可在一条指令内完成,使其更像一个AI Photoshop式的生产力工具 [59] 与竞品Nano Banana Pro的对比 - 在艺术审美和天马行空的创意上,Qwen-Image-2.0可能略逊于Nano Banana Pro [52][55][58] - 但在中文理解、文字渲染正确率、图像编辑可控性和指令遵循的稳定性上表现更出色 [12][19][23][35][38][43][46][48][52] - 在图文混合排版测试中,两者均无法在无提示下生成完整古诗全文,Qwen-Image-2.0存在内容中断问题,而Nano Banana Pro则出现异常重复 [23] 模型定位与行业意义 - 阿里旨在将Qwen-Image-2.0打造为生产力工具,而非技术展示玩具,推动其进入电商、设计、广告等真实工作流程 [60] - 强大的可控性和文字生成能力,使其特别适用于海报、电商图、UI草图等商用设计场景,展现出极高的生产力属性 [55][60] - 模型升级标志着2026年AI图像生成的水平,将文生图与图像编辑能力整合于单一模型,代表了行业的发展方向 [59][60][61]

阿里深夜王炸,Qwen-Image-2.0实测:换装、合影全搞定,写字不再「鬼画符」 - Reportify