Workflow
可能是目前效果最好的开源生图模型,混元生图3.0来了

模型发布与核心定位 - 腾讯混元发布并开源原生多模态图像生成模型HunyuanImage 3.0,参数规模高达800亿,是目前参数量最大的开源生图模型[1] - 该模型是首个开源工业级原生多模态生图模型,将理解与生成一体化融合,效果对标业界头部闭源模型,堪称开源领域最强图像生成模型[1] - 模型支持多分辨率图像生成,具备强大的指令遵从、世界知识推理和文字渲染能力,出图具有极致的美学与艺术感[1] 模型能力与生成效果 - 模型继承了Hunyuan-A13B的世界知识,具备原生世界知识推理能力,例如能根据“解方程组5x+2y=26,2x-y=5,给出详细过程”的提示词解题并生成步骤图[4][5] - 能够驾驭复杂提示词,如“用一幅图介绍堆排序算法流程,用小黄脸的表情包可视化,表情越开心代表数值越大,并提供伪代码,手帐风格,小红书图片样式”[7] - 通过对文字渲染数据的定向补充和借助HunyuanOCR进行文字识别的能力提升,3.0版本实现了接近头部模型的文字渲染能力,便于海报、表情包制作等创意玩法[7] - 经过与设计师配合的后训练打磨,模型形成了自身的美学风格,能够进行四宫格图生成、漫画创作、不同材质模型设计及素描教程制作[11][14] 核心技术方案 - 新一代模型基于Hunyuan-A13B(总参数量800亿,激活参数量130亿),采用原生多模态、统一自回归框架,将文本理解、视觉理解与高保真图像生成深度融合[17] - 不同于将LLM仅作编码器的传统DiT路线,混元3.0以LLM为核心底座,天然继承强大的语言与推理能力,并在预训练阶段深度混合LLM数据、多模态理解与生成数据,形成“理解反哺生成、语言驱动视觉”的正反馈闭环[19] - 模型采用VAE+ViT的联合特征作为图像理解输入,在图像生成侧将Diffusion建模无缝嵌入LLM架构,实现文本和图像的灵活交互,覆盖从创作到编辑的完整链路[23] 关键技术创新 - 引入广义因果注意力,在保持文本token遵循因果型注意力的同时,对图像token赋予全局注意力能力,形成兼顾“语言因果推理”与“图像全局建模”的注意力矩阵[25][26] - 采用“图文交织”的训练范式提升长上下文理解与生成能力,训练序列可包含多个加噪图像,并通过专用attention mask确保训练与推理的一致性[28] - 将LLM中的一维位置编码扩展为二维位置编码,并保证完全兼容原来文本token的一维编码,以最大程度保持原始LLM的语言能力[30] 数据处理与训练策略 - 采用全面的三阶段过滤流程,从超过100亿张原始图像中筛选出近50亿张高质量、多样化图像,并补充了知识增强、文本相关等专业数据集[32] - 构建了中英双语、分层级的图像描述体系,并集成专门的OCR和命名实体识别代理来保证描述的真实性,还专门构建了推理数据集以激活模型的思维链能力[34] - 采用渐进式四阶段预训练,从256像素分辨率开始逐步提升至1024像素,并引入复杂交错图文数据及思维链数据,后续进行指令微调和多阶段后训练[36][37][38] 模型性能评估 - 模型采用机器指标和人工评测两种方式评估效果,其中SSAE指标构建了500道评测题目并按12个细分要点拆解,HunyuanImage 3.0在各细分要点上都媲美甚至超越业界领先模型[40][43] - 在人工评测GSB中,HunyuanImage 3.0相较于Seedream 4.0胜率为1.17%,相较于Nano Banana胜率为2.64%,相较于GPT-Image胜率为5.00%,相较于上一版本模型HunyuanImage 2.1胜率为14.10%[46] - 评测结果表明HunyuanImage 3.0是足以媲美业界领先闭源模型的开源模型[47]