Transformer—VLD-MMDiT
搜索文档
ViT一作盛赞:这个中国开源“PS模型”强过Nano Banana
量子位· 2025-12-29 12:32
模型核心能力与市场定位 - 通义千问发布的开源模型Qwen-Image-Layered,其核心能力在于实现图像元素的精细化修改与图层分解,被描述为“PS级别的拆图自由”[2][3] - 该模型解决了传统AI生图工具“一图定生死”的痛点,即生成图片后难以仅修改局部细节,而需整张重新生成的问题[6] - 模型可将一张普通RGB图片分解成多个包含透明度信息的RGBA分离图层,实现图片素材的真正可编辑性[6] - 其能力被行业专家(如Meta的Lucas Beyer)高度评价,认为其“完爆ChatGPT和Nano Banana”,并代表了图像生成的正确方向[1][5] 具体功能与应用场景 - 模型支持对分解后的图层进行多种二次编辑修改,包括:更改背景而不动主体[8]、替换主体(如将长发女孩换成短发女孩)[12][13]、局部修改图片中的文字[15][16] - 除替换编辑外,模型还支持调整元素大小、删除不想要的元素,且调整过程不拉伸、不失真,类似于PS的自由缩放功能[19][21] - 模型支持可变层分解,可根据图像复杂度和编辑需求,将图像分解为不同数量的图层(如3层或8层),并支持在已分解图层上进一步分解,实现“无限分解”[23] - 该能力非常适合海报制作等细节较多的图片编辑场景,能够将背景、人物、装饰等元素分离成互不干扰的独立图层[6][7] 核心技术原理 - Qwen-Image-Layered模型的核心技术是一套端到端的“扩散模型”,但它并非用于生成图片,而是专门为“拆图片”设计[29][30] - 模型直接输入完整的RGB照片,通过扩散过程预测出多个带透明度信息(Alpha通道)的RGBA图层[31] - 模型设计了一套四通道的RGBA-VAE,将RGB输入和RGBA输出统一压缩到同一个隐藏空间中,并在初始化阶段将Alpha通道补为1(完全不透明),复用预训练参数以避免透明度建模出错[33][35] - 其核心Transformer结构(VLD-MMDiT)会根据图片复杂度自动决定需要拆分的层数,并采用Layer3D RoPE(三维位置编码)为不同图层打上层级标签,解决图层相互遮盖的问题[37] - 训练策略分为三个阶段:第一阶段学习用文本生成单RGBA图层;第二阶段扩展到多图层合成;第三阶段学习从图片反向拆解多图层,每阶段训练几百K步[38][39] 技术优势与对比 - 相较于传统方法(如LayerD需要递归抠前景再补背景,容易积累错误;或分割+修复方法在遮挡区域处理不佳),该模型能端到端生成完整的RGBA图层,避免了这些问题,尤其擅长处理复杂遮挡、半透明和文字[41] - 与Nano Banana等侧重于“生图”的模型相比,Qwen-Image-Layered的核心优势在于“拆图”,提供了更精细、可迭代的编辑能力[5][42] - 模型已正式开源,可供开发者与研究者使用[42]