基于参考图像的图像修复
搜索文档
CVPR 2026 | 中科院、港中文等提出HiFi-Inpaint:无损还原物体细节,重塑Inpainting生成范式!
机器之心· 2026-03-22 13:34
行业痛点与现有技术局限 - 基于参考图像的图像修复技术在广告营销和电商领域有巨大应用潜力,例如生成“真人手持或穿戴商品”的展示图,但现有模型在高保真度要求下常出现品牌Logo扭曲、包装文字乱码、产品纹理丢失等问题,阻碍技术落地[2] - 尽管扩散模型在图像生成上取得革命性进展,但在处理高度定制化的“人+商品”图像时仍力不从心[6] - 现有基于参考图像的修复方法面临三大阻碍:细节易丢失,去噪过程导致纹理、形状和品牌元素严重不一致[7];监督信号粗糙,传统隐空间MSE损失难以提供像素级指导[8];缺乏高质量数据,“人+商品”开源训练数据极度匮乏[9] HiFi-Inpaint模型核心解决方案 - 研究团队提出HiFi-Inpaint模型,核心洞察是显式提取“高频特征”并直接注入网络结构和损失函数,以解决隐空间易丢失高频信息的问题[11] - 模型基于FLUX.1-Dev架构深度改造,旨在将商品参考图无缝融合到带Mask的人物图像中,同时保持极高保真度的细节还原[13][14] 技术架构三大创新点 - 结构创新:设计共享增强注意力模块,利用共享的双流视觉DiT块细化Mask区域内视觉Token,通过可学习权重因子将商品高频特征注入主干网络,增强捕获复杂特征能力的同时保持模型紧凑性(每个模块仅引入一个额外参数)[17][18] - 训练策略创新:引入细节感知损失函数,针对Mask区域内的高频成分(如文字边缘、图案纹理)进行像素级监督,弥补隐空间监督不足[21][22] - 数据破局:构建包含4万多张高质量样本的HP-Image-40K数据集,通过自动化“自合成与过滤”流水线(使用FLUX.1-Dev生成、边缘检测分割、YOLOv8与CLIP语义过滤、InternVL文本过滤)保证商品文字和形态的高度一致性[25] 模型性能评估与效果 - 在定量评估中,HiFi-Inpaint在文本对齐、视觉一致性和结构相似度上均取得SOTA表现,其中CLIP-I达到0.950,DINO达到0.919,SSIM-HF达到0.429[32] - 与ACE++、Insert Anything和FLUX-Kontext等模型相比,HiFi-Inpaint能完美还原瓶身微小文字、Logo和瓶盖纹理,拒绝“AI幻觉”[32] - 在真实世界数据集(含复杂光照、遮挡、室内外场景)上,模型展现出强大的泛化能力和鲁棒性,能自然地将目标商品融入场景并保留关键视觉属性[35] 行业影响与未来启示 - 该技术为电商海报生成、商品虚拟试用等商业落地场景扫清了一大障碍[36] - 核心启发包括:高频信号不可忽视,显式引入传统图像处理先验(如傅里叶变换提取高频图)能为模型提供精准“锚点”[37];Data-Centric AI依然奏效,利用大模型进行自动化数据合成与严格过滤是突破领域数据匮乏的高效途径[38] - 该工作已被计算机视觉顶级会议CVPR 2026接收[39]