多主体控制图像生成

搜索文档
字节图像生成新模型:主打多主体一致性,新基准数据集同时亮相
量子位· 2025-07-02 17:33
字节发布多主体控制生成模型XVerse - 字节最新发布多主体控制生成模型XVerse 实现对设定好的每个主体进行精确控制 同时不破坏图像生成质量 [2] - XVerse可处理多主体 多光源 多风格等复杂场景 [4] - 模型核心通过学习DiT中文本流调制机制的偏移量 实现对多个主体身份和语义属性的一致控制 [6] XVerse技术架构 - T-Mod适配器采用perceiver重采样器作为文本流调制核心 将CLIP编码图像特征与文本提示特征结合生成交叉偏移量 实现多主体精准控制 [8] - 文本流调制机制将参考图像转换为偏移量并注入模型token嵌入 调整原始缩放和移位参数实现生成过程精确控制 [9] - VAE编码图像特征模块集成到FLUX模块中 增强细节保留能力 减少伪影和失真 [10] - 引入两种关键正则化技术进一步提升生成质量和一致性 [11] XVerseBench基准测试 - 测试数据集包含20种人类身份 74种物品 45种动物物种 共300个独特测试提示 [11] - 采用多维评估指标包括区域保留损失 文本图像注意力损失 DPG评分 Face ID相似度 DINOv2相似度 美学评分 [12][13] - 在单主体任务中XVerse取得DPG 93.69 ID-Sim 79.48 IP-Sim 76.86 AES 56.84 AVG 76.72 多主体任务中DPG 88.26 ID-Sim 66.59 IP-Sim 71.48 AES 53.97 AVG 70.08 综合表现优于对比模型 [15] 字节AIGC技术发展历程 - 2023年底上线DreamTuner实现高保真身份保留 [18] - 2024年推出DiffPortrait3D将一致性从2D拓展到3D空间 [19] - 2025年发布OmniHuman-1在音频驱动下实现人物动作与表情自然一致 [19] - 2025年4月推出DreamO基于DiT框架支持身份控制 虚拟换装 风格迁移等复杂任务 [20] - 上述技术积累为XVerse的提出奠定基础 [21] 未来研究方向 - 团队将持续提升AI创作智能化和趣味性 使其更贴合日常需求和审美体验 [22]