视频生成与编辑

搜索文档
阿里开源全能视频模型!生成编辑都精通,1.3B版本消费级显卡可跑
量子位· 2025-05-15 14:26
通义万相Wan2.1-VACE模型概述 - 阿里最新开源视频生成与编辑模型 号称业界功能最全且支持消费级显卡运行 具备"All in one"特性 [1][2] - 提供1.3B(480p)和14B(480p/720p)双版本 已在GitHub/Hugging Face/魔搭社区开源 [3][7] 核心功能架构 基础生成能力 - 支持文生视频/图生视频/视频生视频 其中图生视频可基于首尾帧实现动态融合 [6][8] - 示例生成效果:根据复杂提示词(超100字)生成符合语义的480p视频 角色动作与构图自然 [11][12] 编辑功能 - 局部编辑:支持物体抹除/替换/无中生有 演示案例可在房产视频中凭空添加产品 [15][17][21] - 视频重绘:实现姿态迁移/运动控制/结构重构/重新着色 如将球体动作迁移至真实场景 [21][22] - 画面扩展:支持横竖画幅转换(如蒙娜丽莎横版扩展)及背景延展 [24][27] 高阶应用 - 功能组合:通过多模块联动实现复杂效果 如换脸+画幅调整+装饰添加 [24][25] 技术性能指标 - 计算效率:14B模型在H100显卡处理720p视频需287.9秒/29.9GB显存 1.3B版在RTX4090处理480p仅120.8秒/14.1GB [26] - 实测表现:用户验证其画幅扩展/表情迁移/多素材融合能力与官方demo一致 [27][29][31] 行业影响 - 突破现有视频AI"单次成功率低"的瓶颈 将编辑功能整合为标准化工作流 [16] - 首次实现消费级硬件运行多功能视频生成模型 显著降低技术应用门槛 [1][7]