Workflow
千问团队开源图像基础模型 Qwen-Image
AI前线·2025-09-02 14:52

模型技术架构 - 使用Qwen2.5-VL处理文本输入 变分自编码器(VAE)处理图像输入 多模态扩散变换器(MMDiT)进行图像生成 支持英语和中文文本渲染 [2] - 采用逐步提升图像分辨率的预训练策略 从256x256像素放大至640x640 再到1328x1328像素 [4] - 后训练分为两个阶段:监督微调(SFT)使用人工标注数据集生成逼真图像 强化学习(RL)通过人类评估者筛选最优图像 [4] 性能表现 - 在DPG GenEval GEdit ImgEdit等T2I和TI2I基准测试中总体得分最高 [2] - AI Arena人类评估排名第三 与五个高质量闭源模型竞争(包括GPT Image 1) [2] - 图像理解任务表现与专门训练模型"非常接近" 支持目标检测 语义分割 深度估计等多项功能 [2][4] 训练数据构建 - 训练数据集包含数十亿对图像文本对 涵盖自然(55%) 设计(27%) 人物和合成数据四大类别 [3] - 设计类图像包含丰富文本元素 所有数据经过严格筛选去除低质量样本 [3] - 通过标注框架为每张图像生成详细标题和元数据 [3] 技术特性 - 支持文本到图像(T2I)生成 文本图像到图像(TI2I)编辑 风格转换 对象添加删除 文本编辑等多元功能 [2][4] - 引入超现实风格合成图像 多样化分辨率分布图像 以及含渲染文本的图像增强训练效果 [4] - 开源代码发布于GitHub 模型文件可通过Huggingface下载 [4] 行业意义 - 代表多模态基础模型领域的范式转变 挑战生成模型在感知和认知建模中的传统角色 [2] - 推动视觉理解与生成界限模糊化 为交互式多模态智能体发展奠定基础 [2] - 社区评价认为其意义重大 功能覆盖全面 被形容为"多面手"型模型 [4]