稀疏注意力优化 - 财报，业绩电话会，研报，新闻 - Reportify

稀疏注意力优化

搜索文档

全新稀疏注意力优化！腾讯最新超轻量视频生成模型HunyuanVideo 1.5核心技术解密

量子位· 2025-11-26 17:33

产品发布与定位 - 腾讯混元大模型团队正式发布并开源轻量级视频生成模型HunyuanVideo 1.5 [1] - 该模型基于Diffusion Transformer架构，参数量为8.3B，支持生成5-10秒的高清视频 [2] - 模型定位为“开源小钢炮”，以8.3B的极轻量尺寸实现开源最佳效果，显著降低使用门槛，可在14G显存的消费级显卡上运行 [6] 核心能力与性能 - 模型支持中英文输入的文生视频与图生视频，具备强指令理解与遵循能力，能精准实现运镜、流畅运动、写实人物和情绪表情等多种指令 [5][7] - 支持写实、动画、积木等多种风格，并可在视频中生成中英文文字 [5] - 可原生生成5–10秒时长的480p和720p高清视频，并通过超分模型提升至1080p电影级画质 [6] - 在10秒视频生成效率上，较FlashAttention3提速1.87倍 [15] 技术架构与创新 - 采用两阶段框架：第一阶段为8.3B参数的DiT模型，第二阶段通过视频超分模型提升视觉质量 [11][12] - 创新提出SSTA稀疏注意力机制，显著降低视频长序列生成的计算开销 [15][17] - 采用多模态大模型作为文本编码器，并引入byT5对文本OCR进行独立编码，增强视频文本元素的生成准确性 [20] - 采用多阶段渐进式训练策略，结合Muon优化器加速模型收敛，优化运动连贯性、美学质量及人类偏好对齐 [20] 质量优化与增强 - 为图生视频和文生视频任务分别定制了不同的RLHF策略，以修正伪影并提升运动质量 [23] - 视频超分系统采用8.3B主模型作为骨干网络，设计潜空间特征上采样模块，并应用基于MeanFlow的蒸馏算法缩短推理时间 [21][22] - 集成模型蒸馏、Cache优化等关键技术，大幅提升推理效率，降低资源消耗 [28] 应用与生态 - 腾讯元宝最新版已上线该模型能力，用户可在元宝中通过文字和图片生成视频 [3] - 模型已在项目主页、Github、Hugging Face等平台开源，并提供技术报告 [31]

腾讯控股(HK:00700)

视频生成模型

稀疏注意力优化

多模态理解

HunyuanVideo 1.5

视频生成模型

稀疏注意力优化

多模态理解

HunyuanVideo 1.5