Workflow
Video4Edit
icon
搜索文档
图像编辑缺训练数据?直接从视频中取材,仅用1%训练数据实现近SOTA效果
量子位· 2025-12-06 11:21
文章核心观点 - 百度研究团队提出了一种名为Video4Edit的创新图像编辑方法,该方法将图像编辑任务重新定义为视频生成的一种特殊退化形式,通过利用视频预训练模型中的单帧演化先验,实现了从视频生成到图像编辑的知识迁移,从而在仅需主流编辑模型约1%监督数据的情况下,达到与当前第一梯队模型相当的性能[1][21] 行业背景与现有挑战 - 当前基于扩散模型的图像编辑方法严重依赖大规模、高质量的三元组数据进行训练,数据成本高昂且难以覆盖多样化的用户编辑意图[3] - 现有方法在结构保持与纹理修改之间存在根本性的权衡难题,过度强调结构保持会限制编辑灵活性,而追求大幅度的语义修改又容易导致几何失真[3] 技术原理与创新 - 将图像编辑任务重新定义为视频生成的特殊退化形式,即把源图像视为视频第0帧,编辑后图像视为第1帧,从而将图像编辑建模为一个2帧的极短视频生成过程[4][6] - 利用视频预训练模型中蕴含的单帧演化先验,该先验包含了强大的时序一致性约束和帧间演化规律,天然地平衡了结构保持与语义变化[7] - 通过时间退化建模,将图像编辑过程视为从t=0到t=1的时序演化,使结构保持约束转化为视频生成中成熟的时间注意力机制,该机制天然倾向于在相邻帧之间保持高频细节和几何结构[8][9] - 在潜在空间中,将视频模型学习到的转移概率分布通过文本指令进行条件化引导,从而将通用的时序演化能力导向特定的编辑意图,实现了参数的高效复用[11][12] - 从信息论角度看,引入视频先验极大地降低了假设空间的熵,提供了更强的有效泛化能力,使得基于时序演化的微调具有更高的样本效率[15][16] 数据效率与性能 - Video4Edit仅需主流编辑模型约1%的监督数据即可收敛,使用的监督数据量约为MagicEdit等基线方法的1%[1][21] - 在CLIP Score和Structure Score等关键评估指标上,Video4Edit与使用全量数据的基线方法性能相当,部分场景下实现了性能提升[21] 应用效果展示 - Video4Edit在风格迁移、物体替换和属性修改等多种图像编辑任务上进行了系统性评估[17] - 在风格迁移任务中,能够准确捕捉目标风格特征,同时有效保留源图像的结构信息[19] - 在物体替换任务中,实现了自然的语义融合,边缘处理质量高,无明显伪影[19] - 对于复杂的自然语言编辑指令,能够准确理解语义意图并生成符合要求的编辑结果,表明单帧演化先验在语义对齐方面具有良好的泛化能力[19]