开源视频生成模型Wan 2.1的技术突破 - 阿里开源14B参数视频生成模型Wan 2.1,在VBench榜单表现超越Sora、Gen-3等竞品 [2] - 模型支持复杂运动细节(如5人同步hip-hop)和静态图像文字生成难题 [3][4] - 采用14B(720P)和1.3B(480P)双版本设计,后者可在消费级显卡(如4090显存8GB+)本地部署 [5][6] 计算效率与硬件适配性 - 4090显卡运行1.3B模型耗时261秒/峰值显存8.19GB,多GPU并行显著加速(如8卡降至112秒) [7] - 14B模型在H800显卡上实现最优效率(T2V任务单卡1838秒,8卡288秒) [7] - 12GB显存的4070显卡可支持1.3B版本运行 [6] 商业化与生态整合 - 全部模型采用Apache 2.0协议,允许免费商用 [8] - 计划集成ComfyUI工具链,降低AI创作者使用门槛 [9] - 提供通义万相平台在线体验(消耗"灵感值")及HuggingFace/魔搭社区本地部署方案 [10][11] 核心技术架构创新 - 主体采用DiT架构,结合T5文本编码器与交叉注意力机制实现多语言支持 [21][22] - 创新3D变分自动编码器设计,通过特征缓存和分块处理使VAE重建速度提升2.5倍 [23][28] - 图像转视频(I2V)技术通过CLIP编码器提取首帧特征,新增投影层优化输入通道 [32][34] 实际应用效果展示 - 突破性支持视频内动态文字生成,文字随材质和载体自然变化 [12][13] - 物理模拟精准(如弓弦抖动、水面过渡)且角色动作连贯(华尔兹转身一致性) [15][16][17] - 用户生成案例显示无需提示词即可实现日漫风格动画(如小狗切菜无畸变) [19]
阿里开源版Sora上线即屠榜,4070就能跑,免费商用