定制化AI图像生成
搜索文档
对标GPT-4o和香蕉,浙大开源ContextGen:布局身份协同新SOTA
36氪· 2025-12-22 16:12
文章核心观点 - 浙江大学ReLER团队开源了ContextGen框架,该框架基于Diffusion Transformer架构,通过双重注意力机制,攻克了多实例图像生成中布局控制与身份保真难以协同的行业难题,在基准测试中性能超越开源SOTA模型,并成功对标GPT-4o等闭源系统[1][2] 行业痛点与现有挑战 - 当前多实例生成模型面临协同控制挑战:宏观布局难以固化,生成的实例难以精确锚定到指定位置,导致构图混乱[5] - 当主体数量增加时,身份细节丢失的概率显著上升,模型难以忠实还原每个实例的独特身份特征[6] 技术框架与核心机制 - ContextGen框架基于Diffusion Transformer架构构建,将所有输入整合成统一Token序列[9] - 宏观布局控制模块采用上下文布局锚定机制,通过在DiT模块的前后层建立宏观约束,确保实例能鲁棒且精确地遵循用户指定的布局要求[10] - 微观身份隔离模块采用身份一致性注意力机制,通过隔离式注意力掩码,切断不同实例身份Token间的交叉通信,为每个实例创建“注意力孤岛”,从而保障多主体身份信息的高保真隔离注入[11] 性能优化与数据支持 - 引入直接偏好优化以增强生成图像的多样性和自然度,解决了监督微调可能导致的布局僵硬复制问题[14] - 团队同步发布了IMIG-100K数据集,这是首个包含详细布局与身份标注的大规模高质量多实例合成数据集[16] 实验结果与性能突破 - 在COCO-MIG基准测试中,ContextGen的空间准确性实现了+5.9%的提升[17] - 在LAMICBench++身份保持测试中,ContextGen在较多主体下的身份保真度比肩甚至超越了GPT-4o和Nano-Banana等闭源模型[18] - 定性结果显示,ContextGen能还原细粒度面部特征,灵活融合不同风格的参考图像,并遵循用户的布局设计要求[20] 应用与影响 - 团队开发了用户友好的前端界面,支持用户上传参考图像并设计布局,以定制化生成多实例图像[28] - 该工作为多实例生成提供了SOTA解决方案,突破了布局与身份的协同控制瓶颈,为DiT等基础扩散模型在高度定制化AIGC任务中的应用开辟了新的技术路径[30]