众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基
机器之心·2025-06-24 17:31

视频编辑技术发展现状 - 视频是信息密度最高、情感表达最丰富的媒介之一 但编辑难度极高 传统方法需手动标注、遮罩绘制和精细调色 难以保持时间一致性 [1] - 生成式AI尤其是扩散模型与多模态大模型为视频编辑带来新思路 从基于规则工具发展到文本指令生成与重绘 但零样本方法在处理连续帧时易造成画面闪烁 复杂场景可能出现错位、模糊或语义偏差 [1] VIRES方法核心创新 - 结合草图与文本引导的视频实例重绘方法 支持对视频主体的重绘、替换、生成与移除等多种操作 利用文本生成视频模型先验知识确保时间一致性 [2] - 提出带有标准化自适应缩放机制的Sequential ControlNet 有效提取结构布局并自适应捕捉高对比度草图细节 [2] - 在DiT backbone中引入草图注意力机制 解读并注入细颗粒度草图语义 [2] - 实验结果表明 VIRES在视频质量、时间一致性、条件对齐和用户评分等多方面均优于现有SOTA模型 [2] 大规模数据集VireSet - 研究团队标注大量视频实例的Sketch序列、Mask及文本描述 构建配备详细注释的大规模视频实例数据集VireSet [6] - 包含86k视频片段、连续视频Mask、详细草图序列及高质量文本描述 [6] - 相比Meta开源的SA-V数据集(51k视频、643k实例Mask FPS为6) 利用预训练SAM-2模型将Mask的FPS提高到24 确保连贯性 [8] 技术架构与工作流程 - VIRES由三大模块组成:带有标准化自适应缩放的Sequential ControlNet、带有草图注意力机制的DiT backbone、草图感知编码器 [11] - 输入视频被VAE压缩64倍空间纬度和4倍时间纬度变成潜码 噪声根据Mask序列选择性添加到潜码中 通过去噪网络进行去噪 [13] - Sequential ControlNet从Sketch序列提取结构布局 通过Standardized self-scaling增强黑色边缘线与白色背景间的高对比度过渡 [13] - Sketch Attention结合预定义二进制矩阵指示视频潜码与Sketch序列间对应关系 在潜在空间解释和注入细粒度草图语义 [14] - 草图感知编码器提取多级Sketch特征指导解码过程 确保编辑结果与Sketch序列进一步对齐 [15] 应用场景与性能比较 - VIRES支持四个主要应用场景:视频实例重绘(更换衣服材质颜色)、替换(红色皮卡替换成黑色SUV)、生成与消除 [16][21] - 与5种SOTA方法比较(Rerender、VidToMe、Text2Video-zero、RAVE、VideoComposer) 在VireSet和DAVIS数据集测试 [23] - 在客观评价指标(PSNR、SSIM、WE、FC、TC)和用户调研(VQE、TAE)中均取得最佳结果 [24] - 支持根据文本描述直接从Sketch序列生成完整视频 以及只提供第一帧Sketch来编辑视频的稀疏帧引导编辑 [29] 研究团队与校企合作 - 北京大学相机智能实验室(施柏鑫团队)联合OpenBayes贝式计算及北京邮电大学人工智能学院模式识别实验室共同研发 [2][32] - OpenBayes贝式计算作为国内领先人工智能服务商 深耕工业研究与科研支持领域 为工业企业及高校科研机构提供数据科学计算产品 [33] - 双方共同在可控视频生成领域探索 已取得阶段性成果 校企合作模式加速推进高质量成果落地产业 [34]