阿里通义万相新突破：静态图+音频，轻松生成电影级数字人视频！

公司技术发布 - 阿里通义万相正式开源多模态视频生成模型Wan2.2-S2V 支持通过单张静态图片和音频生成电影级数字人视频 [1] - 模型单次生成视频时长可达分钟级别可应用于数字人直播影视后期制作及AI教育等行业 [2] - 该模型已在通义万相官网 Hugging Face及魔搭社区等平台上线供开发者及行业用户免费试用 [2] 技术特性与性能 - Wan2.2-S2V采用音频驱动技术实现面部表情生动口型同步和动作流畅的视频生成效果 [1][3] - 模型支持不同分辨率视频生成包括竖屏短视频和横屏影视剧格式 [3] - 引入AdaIN和CrossAttention两种控制机制实现更准确动态的音频控制效果 [3] - 前代产品Wan2.2-I2V-Flash推理速度较前代提升12倍显著降低使用门槛 [3] 产品矩阵与开源进展 - 公司于2025年7月28日开源Wan2.2系列模型包含文生视频图生视频及统一视频生成三类 [3] - 文生视频和图生视频模型为业界首个采用MoE架构的视频生成模型 [3] - 开源模型包括通义万相2.2-S2V-14B 通义万相2.2-图生视频-A14B-Diffusers等多个版本均采用Apache 2.0许可证 [2] 应用案例与效果 - 测试显示模型可处理真人卡通动物及数字人形象生成说话唱歌表演等多种动作 [3][5] - 使用欧美人物照片配合中文音频生成视频时面部表情和嘴部动作与音频完美同步光线变化自然 [5] - 动画人物测试中可实现自动添加背景音乐虽嘴部线条识别仍有提升空间但整体效果出色 [5] 行业影响与前景 - 技术突破有望极大提升数字人直播影视制作 AI教育等行业的视频创作效率 [2][3] - 模型为快速发展的数字人直播和影视制作行业提供了高效视频创作工具解决方案 [5] - 行业预计随着技术迭代完善视频生成领域将迎来更多创新和突破 [5]