Workflow
边写边画、边说边画,混元图像2.0来了!

腾讯混元图像2.0发布 - 推出新一代图像生成模型混元图像2 0 实现毫秒级响应速度 用户输入提示词时可实时看到图像变化 [1] - 采用超高压缩倍率图像编解码器和全新扩散架构 参数量提升一个数量级 改变传统"抽卡—等待—抽卡"方式 [1] - 在GenEval基准测试中准确率超过95% 远超同类模型 展现复杂文本指令理解与生成能力 [1] 交互革新 - 实现"边打字边出图"的完全实时反馈 画面随文字变化实时调整 例如输入"人像摄影 爱因斯坦 背景是东方明珠电视塔"可立即生成对应图像 [2] - 支持连续增加或修改多个细节 如"亚洲面孔 大眼睛 笑容灿烂 长头发 穿中式服装 戴帽子"等元素可逐步添加 [5] - 彻底打破传统"输入→等待→查看→调整"流程 大幅降低创作门槛 使创意表达更流畅 [7] 图像质量提升 - 通过强化学习算法和人类美学知识对齐 有效避免"AI味" 呈现更真实质感和丰富细节 [8] - 高保真度图像生成能力对广告 设计等需要高质量素材的行业具有巨大吸引力 [8] 图生图功能 - 支持提取参考图主体或轮廓特征进行二次编辑 如上传猫咪照片可调整眼睛大小 添加皇冠等 [9] - 可对现有图片进行风格修改 如将巧克力蛋糕改为草莓味同时保持形状一致 [10] - 支持一键为简笔画上色和"画面优化"功能 自动改进构图 景深和光影效果 [14] 实时绘画板 - 用户在绘制线稿或调整参数时 预览区同步生成上色效果 突破传统"绘制-等待-修改"流程 [16] - 特别适合有设计想法但缺乏专业绘画能力的用户 [17] 技术突破 - 参数量提升一个数量级 显著提高性能上限 [19] - 自研超高压缩倍率图像编解码器 降低图像编码序列长度同时保证细节生成能力 [19] - 采用多模态大语言模型作为文本编码器 显著提升语义匹配能力 [19] - 通过全尺度多维度强化学习后训练提升图片生成真实感 [19] - 自研对抗蒸馏方案实现少步高质量生成 [19]