视频生成与编辑 - 财报，业绩电话会，研报，新闻

视频生成与编辑

搜索文档

量子位· 2025-05-15 14:26

通义万相Wan2.1-VACE模型概述 - 阿里最新开源视频生成与编辑模型号称业界功能最全且支持消费级显卡运行具备"All in one"特性 [1][2] - 提供1.3B(480p)和14B(480p/720p)双版本已在GitHub/Hugging Face/魔搭社区开源 [3][7] 核心功能架构基础生成能力 - 支持文生视频/图生视频/视频生视频其中图生视频可基于首尾帧实现动态融合 [6][8] - 示例生成效果：根据复杂提示词(超100字)生成符合语义的480p视频角色动作与构图自然 [11][12] 编辑功能 - 局部编辑：支持物体抹除/替换/无中生有演示案例可在房产视频中凭空添加产品 [15][17][21] - 视频重绘：实现姿态迁移/运动控制/结构重构/重新着色如将球体动作迁移至真实场景 [21][22] - 画面扩展：支持横竖画幅转换(如蒙娜丽莎横版扩展)及背景延展 [24][27] 高阶应用 - 功能组合：通过多模块联动实现复杂效果如换脸+画幅调整+装饰添加 [24][25] 技术性能指标 - 计算效率：14B模型在H100显卡处理720p视频需287.9秒/29.9GB显存 1.3B版在RTX4090处理480p仅120.8秒/14.1GB [26] - 实测表现：用户验证其画幅扩展/表情迁移/多素材融合能力与官方demo一致 [27][29][31] 行业影响 - 突破现有视频AI"单次成功率低"的瓶颈将编辑功能整合为标准化工作流 [16] - 首次实现消费级硬件运行多功能视频生成模型显著降低技术应用门槛 [1][7]

视频生成与编辑

Artificial Intelligence

通义万相Wan2.1-VACE

视频生成与编辑

Artificial Intelligence

通义万相Wan2.1-VACE