SketchVideo

搜索文档
CVPR 2025 | SketchVideo让手绘动起来,视频生成进入线稿时代
机器之心· 2025-05-17 14:00
生成式AI视频技术发展 - 生成式AI在文本和图像领域已成熟,视频生成成为AIGC重要研究方向,应用于影视制作、短视频合成等领域[1] - 现有商用/开源模型(如Sora、可灵、CogVideo)依赖文本/图像输入,但存在几何细节控制不足、运动信息难以精确调节等局限性[7][9] - 视频局部二次编辑需解决空间与时序一致性难题,当前方法多聚焦整体风格变化而非局部几何编辑[9][11] SketchVideo技术创新 - 提出基于线稿的可控视频生成/编辑方法,仅需1-2帧关键帧线稿即可生成时序一致的动态视频,支持局部区域修改[1][12] - 采用跳跃式残差控制结构:将条件模块以固定间隔嵌入预训练模型(CogVideo-2B),参数开销减少50%以上[11][12] - 引入帧间注意力机制,通过稀疏传播关键帧控制特征实现全视频一致性[12] - 视频编辑新增视频嵌入模块,结合局部融合策略保留非编辑区域内容[12] 应用效果展示 - 单帧线稿+文本输入可生成高质量视频,指定时间点与线稿匹配度达90%以上[15][17] - 双帧线稿输入可控制物体运动轨迹,实现定制化生成[17][19] - 真实视频编辑支持局部区域修改(如树枝移动、头部旋转),新内容与原始视频运动同步[19][21] 行业影响 - 突破专业视频制作门槛,用户通过简单线稿即可创作动态内容,效率提升约70%[23] - 技术已被CVPR 2025收录,相关代码及Demo在GitHub和YouTube开源[8][23] - 相比传统文本驱动方法,几何控制精度提升40%,填补了视频生成领域可控性空白[9][12]