Workflow
稀疏注意力优化
icon
搜索文档
全新稀疏注意力优化!腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密
量子位· 2025-11-26 17:33
产品发布与定位 - 腾讯混元大模型团队正式发布并开源轻量级视频生成模型HunyuanVideo 1.5 [1] - 该模型基于Diffusion Transformer架构,参数量为8.3B,支持生成5-10秒的高清视频 [2] - 模型定位为“开源小钢炮”,以8.3B的极轻量尺寸实现开源最佳效果,显著降低使用门槛,可在14G显存的消费级显卡上运行 [6] 核心能力与性能 - 模型支持中英文输入的文生视频与图生视频,具备强指令理解与遵循能力,能精准实现运镜、流畅运动、写实人物和情绪表情等多种指令 [5][7] - 支持写实、动画、积木等多种风格,并可在视频中生成中英文文字 [5] - 可原生生成5–10秒时长的480p和720p高清视频,并通过超分模型提升至1080p电影级画质 [6] - 在10秒视频生成效率上,较FlashAttention3提速1.87倍 [15] 技术架构与创新 - 采用两阶段框架:第一阶段为8.3B参数的DiT模型,第二阶段通过视频超分模型提升视觉质量 [11][12] - 创新提出SSTA稀疏注意力机制,显著降低视频长序列生成的计算开销 [15][17] - 采用多模态大模型作为文本编码器,并引入byT5对文本OCR进行独立编码,增强视频文本元素的生成准确性 [20] - 采用多阶段渐进式训练策略,结合Muon优化器加速模型收敛,优化运动连贯性、美学质量及人类偏好对齐 [20] 质量优化与增强 - 为图生视频和文生视频任务分别定制了不同的RLHF策略,以修正伪影并提升运动质量 [23] - 视频超分系统采用8.3B主模型作为骨干网络,设计潜空间特征上采样模块,并应用基于MeanFlow的蒸馏算法缩短推理时间 [21][22] - 集成模型蒸馏、Cache优化等关键技术,大幅提升推理效率,降低资源消耗 [28] 应用与生态 - 腾讯元宝最新版已上线该模型能力,用户可在元宝中通过文字和图片生成视频 [3] - 模型已在项目主页、Github、Hugging Face等平台开源,并提供技术报告 [31]