阿里开源14B电影级视频模型！实测来了：免费可玩，单次生成时长可达分钟级

产品发布与特性 - 阿里发布音频驱动视频生成模型Wan2.2-S2V 仅需一张图片和一段音频即可生成电影级数字人视频 [1] - 模型支持单次分钟级生成具备影院级音频生成视频能力和基于指令的高级动作与环境控制 [5] - 模型通过混合并行训练和全参数化训练构建超60万个音视频片段数据集 [19] 技术实现 - 融合文本引导全局运动控制和音频驱动细粒度局部运动实现复杂场景音频驱动视频生成 [19] - 采用AdaIN+CrossAttention控制机制解决音画同步问题 [20] - 利用层次化帧压缩技术将历史参考帧拓展到73帧实现稳定长视频生成 [21] - 通过多分辨率训练支持竖屏短视频和横屏影视剧等不同分辨率场景生成需求 [22] 用户体验与效果 - 模型生成视频面部表情自然口型一致且肢体动作丝滑 [1] - 用户可通过通义万相官网免费体验每日登录赠送50积分 [11] - 实测显示模型对口型能力出色唇形与台词基本匹配 [13] - 用户生成内容涵盖动漫人物朗诵人物贴画唱歌及大段rap演绎等多种场景 [15][16][17] 生态影响与市场表现 - 通义万相视频生成模型家族在开源社区和第三方平台下载量已超2000万 [23] - 模型发布即开源可通过GitHub Modelscope和HuggingFace等平台获取 [24]