Workflow
混元图像2.0(Hunyuan Image 2.0)
icon
搜索文档
鹅厂放大招,混元图像2.0「边说边画」:描述完,图也生成好了
量子位· 2025-05-16 11:39
腾讯混元图像2.0模型发布 - 腾讯发布混元图像2.0模型(Hunyuan Image 2.0),首次实现毫秒级响应,支持边说边画实时生成,用户描述与绘制过程同步进行,体验流畅[1] - 模型支持实时绘画板功能,用户可手绘元素并辅以文字说明,系统根据草图实时生成图像[2][3] - 提供多种交互方式包括语音输入(中英文)和上传参考图,参考图可提取主体或轮廓特征并调整约束强度[18][19][21] 模型性能特点 - 模型参数相比HunyuanDiT提升一个数量级,更大模型尺寸保障性能上限[37] - 采用自研超高压缩倍率图像编解码器,优化信息瓶颈层并强化对抗训练,显著降低生图时耗[38] - 适配多模态大语言模型(MLLM)作为文本编码器,语义遵从能力大幅提升,在GenEval测试中指标远超竞品[39][40] 技术创新点 - 通过强化学习后训练(包括通用后训练与美学后训练)提升图像生成真实感[41] - 采用自研对抗蒸馏方案,基于隐空间一致性模型实现少步高质量生成[42] - 模型经过全尺度多维度强化学习训练,在多轮图像生成和实时交互方面表现突出[36][46] 应用功能展示 - 支持16:9比例生图效果更佳,保持角色一致性能力优秀,输入补充描述时主体特征稳定[12][13] - 可处理多种风格包括真实场景、动漫风、编织风等,提供画面优化功能自动调整构图、景深和光影[14][16][27] - 示例显示上传简笔画可一键上色,上传蛋糕照片可结合文本指令生成新图像[22][25] 行业动态 - 腾讯混元团队预告将发布原生多模态图像生成大模型,重点关注多轮生成和实时交互体验[45] - 模型技术细节将通过后续技术报告披露,官网已开放访问[43][47]