研究背景与核心痛点 - 无需额外训练即可适配预训练生成模型的编辑方法已成为研究热点,其通过操控Attention机制实现文本引导编辑,但存在两大核心痛点[5] - 痛点一:编辑强度与源图一致性难以兼顾,增强编辑强度易破坏源图特征结构(如改衣服颜色时丢失褶皱细节),且非编辑区域会出现意外变化,此问题在多轮编辑或视频编辑场景中会累积放大[5] - 痛点二:编辑强度缺乏细粒度控制能力,多数方法对编辑强度的控制局限于全局一致性,无法实现“保结构改纹理”或“保纹理改结构”的精准调节[5] - 生成模型架构正从U-Net向Multi-Modal Diffusion Transformer升级,MM-DiT通过统一的Self-Attention同时处理文本与视觉信息,为解决上述困境提供了新可能[7] 核心技术创新与发现 - 针对MM-DiT架构的Attention计算提炼出三个核心发现:仅编辑“视觉Token”是关键,若修改“文本Token”会导致结果失真[9] - 发现MM-DiT所有层的Q/K/V Token都保留完整的结构与纹理信息,意味着编辑可覆盖所有Attention层,而非仅作用于最后几层[11] - 发现Q/K Token主导结构一致性,单独对Q/K的视觉Token进行控制可精准保留源图像结构,而V的视觉Token则主要影响内容纹理,为结构与纹理的解耦控制提供了技术依据[15] ConsistEdit方法设计 - 提出视觉仅注意力控制,仅对所有Attention层的视觉Token进行编辑,文本Token保持不变,以实现强一致性的稳定生成[19] - 采用掩码引导的Attention融合,在Attention计算前通过文字和视觉Token的Attention Map值生成编辑掩码,精确分离编辑区与非编辑区[20] - 实现Q/K/V差异化操控,提出“一致性强度”以控制结构一致性,通过动态调整Q/K融合比例,实现从“完全保结构”到“自由改结构”的平滑过渡[21] 实验验证与应用前景 - 在PIE-Bench数据集上的对比实验显示,该方法在图像和视频编辑任务中均优于UniEdit-Flow、DiTCtrl、FireFlow等5种主流方法[22] - 方法支持真实图片的多轮编辑和多区域精准编辑,得益于精确的Attention控制与强大的预训练模型支撑[26][27] - ConsistEdit具有高度泛化性,不仅支持Stable Diffusion 3,还可无缝适配FLUX.1-dev、CogVideoX-2B等MM-DiT类模型[31][33] - 高一致性和细粒度控制特性使其可广泛应用于从静态图片到动态视频的全场景视觉创作,为交互式创作提供了更多可能性[34]
ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
机器之心·2025-11-19 10:09