CVPR2025｜MCA-Ctrl：多方协同注意力控制助力AIGC时代图像精准定制化

背景与行业需求 - 生成式AI技术特别是文本到图像(T2I)模型如DALL・E、Stable Diffusion和Midjourney快速发展实现根据文本提示生成高度逼真图像[3] - 图像定制化需求日益凸显需在保持参考图像主体身份特征前提下生成新表现形式应用于电子商务、数字内容创作和广告营销等领域[3] - 当前主流技术路线包括基于反演优化、多模态编码器以及新兴的基于注意力控制的方法[4] 现有技术瓶颈 - 可控性不足主流文本驱动方法难以精确控制背景和布局等元素新技术如PhotoSwap仍局限于单一功能无法实现统一控制[5] - 复杂视觉场景处理困难多物体交互和遮挡场景常出现主体特征扩散问题源于模型在高响应区域生成不准确[6] - 背景融合不自然图像条件控制下生成结果与原始背景融合效果不佳[7] 方法创新 - 提出无需微调的通用图像定制方法MCA-Ctrl 利用扩散模型内部知识实现图像定制核心创新在于结合条件图像/文本提示语义信息与主体图像内容[8] - 针对三类任务：主题替换、主题生成和主题添加[8] - 通过主体定位模块(SLM)进行精准定位采用三个并行扩散过程中的自注意力注入与查询机制[10] - 自注意力局部查询(SALQ)从主体和条件中检索前景/背景内容使用主题和背景掩码约束查询区域确保布局一致性和外观替换[13] - 自注意力全局注入(SAGI)通过计算完整注意力矩阵并掩码过滤增强细节真实性与内容一致性降低特征混淆[14] 性能表现 - 在主体编辑性能方面包括主体替换、添加以及复杂视觉场景中的替换展现高度一致性和真实感[15] - 零样本定制生成能力在物体、动物和人物等不同类别上实现高质量、高一致性且富有创意的再现效果[15] - 主题替换任务量化评估中 MCA-Ctrl在DINO sub(0.6433±0.005)、DINOback(0.6782±0.002)、CLIP-Isub(0.8113±0.004)、CLIP-Iback(0.8681±0.004)和ImageReward(0.3214+0.05)指标上均展现相当或更优性能[17][18] - 主题生成任务中经过参数优化后MCA-Ctrl取得与BLIP-Diffusion和DreamBooth相当的结果[18] - 人工评估显示MCA-Ctrl在主体对齐度(0.92)、文本对齐度(0.89)、真实感(0.92)和总体评分(2.73)方面表现突出[19] - SAGI操作在去噪过程前期有效建立主体与背景语义关联但超过总去噪步骤60%后提升效果趋于饱和呈现边际效应递减特性[19] 应用与总结 - 构建图像定制化演示系统用户可方便地根据需求使用该方法完成定制化任务[20] - MCA-Ctrl通过协同注意力控制实现高质量、高保真度的主体驱动编辑与生成有效解决复杂视觉场景中的特征混淆问题[21] - 大量实验结果表明相较于大多数同期工作 MCA-Ctrl在编辑和生成任务上表现更优[21]