多主体控制图像生成 - 财报，业绩电话会，研报，新闻

多主体控制图像生成

搜索文档

量子位· 2025-07-02 17:33

字节发布多主体控制生成模型XVerse - 字节最新发布多主体控制生成模型XVerse 实现对设定好的每个主体进行精确控制同时不破坏图像生成质量 [2] - XVerse可处理多主体多光源多风格等复杂场景 [4] - 模型核心通过学习DiT中文本流调制机制的偏移量实现对多个主体身份和语义属性的一致控制 [6] XVerse技术架构 - T-Mod适配器采用perceiver重采样器作为文本流调制核心将CLIP编码图像特征与文本提示特征结合生成交叉偏移量实现多主体精准控制 [8] - 文本流调制机制将参考图像转换为偏移量并注入模型token嵌入调整原始缩放和移位参数实现生成过程精确控制 [9] - VAE编码图像特征模块集成到FLUX模块中增强细节保留能力减少伪影和失真 [10] - 引入两种关键正则化技术进一步提升生成质量和一致性 [11] XVerseBench基准测试 - 测试数据集包含20种人类身份 74种物品 45种动物物种共300个独特测试提示 [11] - 采用多维评估指标包括区域保留损失文本图像注意力损失 DPG评分 Face ID相似度 DINOv2相似度美学评分 [12][13] - 在单主体任务中XVerse取得DPG 93.69 ID-Sim 79.48 IP-Sim 76.86 AES 56.84 AVG 76.72 多主体任务中DPG 88.26 ID-Sim 66.59 IP-Sim 71.48 AES 53.97 AVG 70.08 综合表现优于对比模型 [15] 字节AIGC技术发展历程 - 2023年底上线DreamTuner实现高保真身份保留 [18] - 2024年推出DiffPortrait3D将一致性从2D拓展到3D空间 [19] - 2025年发布OmniHuman-1在音频驱动下实现人物动作与表情自然一致 [19] - 2025年4月推出DreamO基于DiT框架支持身份控制虚拟换装风格迁移等复杂任务 [20] - 上述技术积累为XVerse的提出奠定基础 [21] 未来研究方向 - 团队将持续提升AI创作智能化和趣味性使其更贴合日常需求和审美体验 [22]