HunyuanVideo - 财报，业绩电话会，研报，新闻

HunyuanVideo

搜索文档

量子位· 2025-08-14 15:34

腾讯开源游戏视频生成框架Hunyuan-GameCraft - 腾讯推出全新开源游戏视频生成框架Hunyuan-GameCraft，专为游戏环境设计，可实时生成流畅画面 [1][7] - 操作门槛极低，仅需单张场景图+文字描述+动作指令即可生成高清动态游戏视频 [8] - 支持多种风格（水墨风、古希腊等）及复杂场景生成（动态天气、NPC互动） [2][4][6][18] 技术突破与核心优势 - 解决传统工具三大瓶颈：动作僵硬（仅支持简单平移/转身）、场景静态（依赖预渲染）、长期一致性差（切换视角后场景变形） [19][20][21] - 三大核心优势：自由流畅（支持高精度控制如角度/速度）、记忆增强（混合历史条件建模）、成本骤降（仅需消费级显卡RTX 4090） [24][26] - 基于HunyuanVideo构建，通过四大技术模块实现精准交互响应：交互信号统一编码、混合历史条件建模、模型蒸馏优化、扩散过程动作控制 [30][31][32][33] 性能表现与数据支撑 - 光流一致性得分比次优模型高18.3%，动作响应延迟低至87ms，PSNR/SSIM领先5%-12% [35] - 细粒度控制任务中准确响应92%离散动作输入（基线模型仅65%），长时序生成误差低60%以上 [37][39] - 主观评估真实感评分4.2/5，可控性4.1/5，"愿意持续交互"比例达78%（对比模型1.5-2倍） [35] 应用场景与数据训练 - 适用游戏开发、视频创作、3D设计，无需专业建模知识 [24] - 训练数据包含上百款3A游戏（如《刺客信条》《赛博朋克2077》）及3000个高质量运动序列 [25][28] - 通过合成数据构建与分布平衡策略优化泛化能力 [28][34]

腾讯控股(HK:00700)

Artificial Intelligence

Software

Hunyuan-GameCraft

HunyuanVideo

Artificial Intelligence

Software

Hunyuan-GameCraft

HunyuanVideo

EasyCache：无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案

机器之心· 2025-07-12 12:50

研究背景与动机 - 扩散模型和扩散Transformer在视频生成领域广泛应用，显著提升了AI合成视频的质量和连贯性，如OpenAI Sora、HunyuanVideo、Wan2.1等模型已能生成结构清晰、细节丰富且高度连贯的长视频内容 [3] - 当前扩散模型存在推理慢、算力消耗高的问题，例如HunyuanVideo生成5秒720P视频在单张H20上需2小时，限制了实时互动和移动端应用 [4] - 核心瓶颈在于扩散模型需多次迭代去噪，每一步都需完整神经网络前向推理，导致大量冗余计算 [5] 方法创新：EasyCache设计与原理 - EasyCache是一种无需训练、无需模型结构改动的推理加速框架，通过动态检测模型输出的「稳定期」复用历史计算结果以减少冗余推理步骤 [7] - 研究发现扩散模型在去噪初期输出变化剧烈需完整推理，中后期「变换速率」趋于稳定，行为近似线性，可通过复用历史结果跳过冗余计算 [12][13] - 采用自适应缓存机制，通过变换速率度量(Kt)和累计误差阈值(Et)动态判断是否复用缓存，前R步为warm-up确保初期结构信息不丢失 [15][19] 实验结果与性能 - 在HunyuanVideo上实现2.2倍加速，PSNR提升36%至32.66，SSIM提升14%至0.9313，LPIPS大幅下降至0.0533，视频质量几乎无损 [17][20] - 在Wan2.1上取得2.54倍加速，PSNR达25.24，SSIM 0.8337，LPIPS 0.0952，优于Static cache和TeaCache等方法 [20] - 在图像生成任务(FLUX.1-dev)实现4.64倍加速，FID降至23.2，CLIP Score保持26.1 [21][22] - 与SVG等稀疏注意力技术叠加后平均加速达3.3倍，总体推理时长从2小时缩短至33分钟 [23][26] 技术优势与行业影响 - 可视化对比显示EasyCache生成的视频在细节、结构和清晰度上与原模型几乎一致，显著优于静态缓存和TeaCache等方法 [24][25] - 该技术为视频扩散模型提供了极简、高效、训练无关的推理加速新范式，为实际应用落地奠定基础 [27] - 未来有望通过持续优化进一步逼近「实时视频生成」目标，推动数字内容创作和多媒体娱乐行业变革 [27]

Diffusion Models

Diffusion Transformer

Artificial Intelligence

Diffusion Transformer

Artificial Intelligence

EasyCache

HunyuanVideo

Wan2.1

无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

机器之心· 2025-06-28 12:35

视频生成模型效率瓶颈 - 扩散模型在高质量视频生成任务中已成为主流，但DiT模型中的注意力机制计算量随视频长度和分辨率提升急剧增加，成为推理效率最大瓶颈 [1] - 视频生成中DiT通常使用3D全局注意力建模时空一致性，计算量随token数量呈平方增长，生成8秒720p视频需要接近一小时 [1] - 在HunyuanVideo等模型中，注意力模块计算时间占比超过80% [1] 现有加速方法局限性 - 现有稀疏注意力方法如Sparse VideoGen和AdaSpa在GPU上实现了一定加速，但受限于稀疏度不足和稀疏模式设计刚性，效果不理想 [2] - 这些方法依赖固定稀疏算子，缺乏对输入内容的动态适应能力，难以实现细粒度、内容感知的稀疏模式调控 [2] DraftAttention创新方案 - 研究团队提出无需训练、即插即用的动态稀疏注意力方法DraftAttention，实现高达2倍的GPU端到端推理加速 [3] - 核心思想是通过低分辨率"草图注意力图"估计token重要性，指导高分辨率注意力计算中的稀疏模式选择 [11] - 具体流程包括草图构建、草图注意力计算、稀疏模式引导、Token重排以适配硬件等步骤 [12][13] - 该方法可直接插入现有视频扩散模型如HunyuanVideo和Wan2.1中，无需额外训练或微调 [13] 理论验证 - 使用平均池化构建的Draft Attention Map与原始高分辨率Attention Map之间的差异在Frobenius范数意义下有界 [15] - 从Draft Attention Map提取的稀疏注意力模式影响可被严格界定在可控范围内 [15] 实验结果 - 在HunyuanVideo和Wan2.1模型上测试，DraftAttention在高稀疏率(75%~90%)下能更好保留视频时空一致性和关键结构 [20] - 在H100和A100 GPU上实现最高1.75倍端到端推理加速，加速效果随视频长度、分辨率和稀疏率提升 [22] - PSNR在高分辨率下提升约+2~+3分，SSIM一致性更强，LPIPS感知相似度提升 [21] 未来方向 - 计划结合量化与蒸馏等技术，继续优化长视频生成效率瓶颈，推动高质量视频生成模型走向移动端、边缘端等资源受限场景 [47]

清华SageAttention3，FP4量化5倍加速！且首次支持8比特训练

机器之心· 2025-06-18 17:34

核心观点 - 清华大学陈键飞团队提出的SageAttention3实现了5倍于FlashAttention的推理加速，并在多种视频和图像生成大模型中保持端到端精度表现 [2][5] - SageAttention3是首个针对BlackWell架构的全FP4量化即插即用注意力算子，在RTX 5090上达到1040 TOPS速度，比H100上的FlashAttention3快1.65倍 [2] - 该团队还首次提出可训练的8比特注意力(SageBwd)用于大模型训练加速，在微调任务中保持与全精度注意力相同结果 [2] 技术突破推理加速 - SageAttention系列迭代加速效果：V1(2.1倍)、V2(3倍)、V2++(3.9倍)、V3(5倍) [2] - 在RTX5090上实现HunyuanVideo端到端3倍加速(164s vs 489s)，视频质量几乎无损 [5][33] - 算子速度相比FlashAttention2和xformers分别提升5倍和10倍 [22] FP4量化创新 - 采用BlackWell硬件支持的Microscaling FP4量化，选择NVFP4格式(准确率99.52% vs MXFP4的98.37%) [15] - 提出两阶段量化解决P矩阵缩放因子范围狭窄问题，显著提升精度 [15][16] - 算法流程优化实现高效Attention算子，两行代码即可加速任意模型推理 [5] 8比特训练 - 对Q/K/V采用Per-block INT8量化，对P采用无量化Overhead的Per-token量化 [17] - 反向传播中保留dOVT为FP16精度，量化其他四个矩阵乘法 [18] - 在Base Model微调任务中与BF16注意力表现完全一致 [33] 应用效果 - 已应用于多个知名大模型：Vidu、CogvideoX、Mochi、Wan、HunyuanVideo、Flux、Llama3、Qwen等 [1] - 在CogvideoX(2B)上端到端速度从64s提升至27s [33] - 训练加速方面，8比特注意力在微调任务中完全无损，但预训练任务与全精度仍有差距 [34] 硬件适配 - 充分利用BlackWell架构的FP4 Tensor Core，RTX5090速度达FP16 Tensor Core的8倍 [9] - 实现GPU底层CUDA Kernel优化，在算子速度和模型精度上均有显著提升 [21]

AI周报 | xAI新一轮融资后估值有望超1200亿美元；OpenAI重组计划生变

第一财经资讯· 2025-05-11 09:39

xAI融资动态 - xAI正洽谈新一轮融资估值可能达到1200亿美元潜在融资规模200亿美元[1] - 若融资完成将成为史上第二大初创公司融资仅次于OpenAI的400亿美元融资[1] OpenAI公司治理调整 - OpenAI撤回营利实体重组计划非营利组织保持控制权营利实体将转型为公益公司(PBC)[2] - 新架构下投资者持有普通股且增值不受限旨在提升未来融资能力[2] 技术合作与开源进展 - 腾讯优化DeepSeek的DeepEP通信框架 RoCE网络性能提升100% IB网络提升30%[3] - 腾讯混元开源多模态视频生成工具HunyuanCustom 主体一致性优于现有开源方案[8] 行业竞争格局变化 - 苹果计划在Safari引入AI搜索选项谷歌母公司Alphabet股价单日跌7% 市值蒸发1500亿美元[4] - AI编程工具Cursor开发商Anysphere完成9亿美元融资估值达90亿美元较去年12月增长246%[5][6] 高管变动与人才战略 - OpenAI任命Instacart CEO菲吉·西莫为应用主管强化商业化能力[7] 人形机器人技术迭代 - 逐际动力发布31自由度人形机器人CL-3 云深处推出四足机器人M20[9] - 行业持续优化运动性能 8月将举办世界人形机器人运动会[9]

腾讯混元发布并开源视频生成工具HunyuanCustom，支持主体一致性生成

快讯· 2025-05-09 12:22

腾讯混元团队发布多模态视频生成工具 - 腾讯混元团队于5月9日发布并开源多模态定制化视频生成工具HunyuanCustom [1] - 该工具基于混元视频生成大模型(HunyuanVideo)打造 [1] - 在主体一致性效果方面超过现有开源方案，可媲美顶尖闭源模型 [1] HunyuanCustom技术特点 - 融合文本、图像、音频、视频等多模态输入生成视频的能力 [1] - 具备高度控制力和生成质量的智能视频创作工具 [1]

ICML 2025 | 视频生成模型无损加速两倍，秘诀竟然是「抓住attention的时空稀疏性」

机器之心· 2025-05-07 15:37

AI视频生成技术发展 - AI视频生成技术进入快速爆发阶段，扩散模型展现出接近现实的生成效果，但速度瓶颈成为大规模应用的主要障碍 [1] - 当前主流视频生成模型（如Wan 2.1、HunyuanVideo）在单张H100 GPU上生成5秒720p视频需耗时30分钟以上，其中3D Full Attention模块占推理时间的80%以上 [1][6] Sparse VideoGen解决方案 - 加州伯克利和MIT研究者提出无需重新训练模型的加速方法Sparse VideoGen，通过挖掘注意力机制的空间与时间稀疏性，将推理时间减半 [2][4] - 该方法支持Wan 2.1、HunyuanVideo、CogVideoX等开源模型，适用于T2V和I2V任务，代码已开源并被ICML 2025收录 [4][8] 扩散式视频生成的性能瓶颈 - 基于Transformer的Video Diffusion Transformers（DiTs）在建模长时空依赖方面优势显著，但3D Full Attention带来巨大计算负担 [6] - Attention计算复杂度随分辨率和帧数呈二次增长，远高于普通图像生成模型 [6] Sparse VideoGen核心技术 - 识别Attention Map中的空间稀疏性（Spatial Head）和时间稀疏性（Temporal Head），分别负责局部空间一致性和跨帧时间一致性 [9][10][11][12] - 采用动态自适应稀疏策略，通过在线稀疏模式优化方法（Online Profiling）选择最优稀疏模式，仅需0.1%的Token采样即可实现精准预测 [15][16][17] 算子层优化 - 引入硬件友好的布局转换方法，将帧为主存储改为token为主存储，优化Temporal Head的内存访问模式 [20] - 定制化优化QK-Norm和RoPE模块，QK-Norm平均加速比达7.4倍，RoPE平均加速比达14.5倍 [21] 实验成果 - Sparse VideoGen在H100上使HunyuanVideo推理时间从30分钟降至15分钟，Wan 2.1从30分钟降至20分钟，PSNR稳定在29dB以上 [23] - 该方法展示视频生成模型可通过结构理解+自适应稀疏性实现性能突破，而非单纯扩大模型规模 [24]

AI Video Generation

Spatial-Temporal Sparsity

Artificial Intelligence

Spatial-Temporal Sparsity

Artificial Intelligence

Sparse VideoGen

Sora

Wan 2.1

11B模型拿下开源视频生成新SOTA！仅用224张GPU训练，训练成本省10倍

量子位· 2025-03-13 11:28

开源视频生成模型Open-Sora 2.0发布 - 核心观点：Open-Sora 2.0以20万美元低成本实现11B参数规模，性能接近30B闭源模型，全面开源模型权重与训练流程 [1][3][4][10] - 技术突破：训练成本降低5-10倍，相比百万美元级闭源模型具有显著成本优势 [2][3][13] - 性能表现：在VBench评测中与OpenAI Sora差距从4.52%缩小至0.69%，超越腾讯HunyuanVideo [12] 模型性能与架构 - 参数规模：11B参数媲美30B闭源模型HunyuanVideo和Step-Video [1][10] - 评估结果：在视觉表现/文本一致性/动作表现三个维度超越Runway Gen-3 Alpha等商业模型 [11] - 架构创新：采用3D自编码器+Flow Matching框架，引入MMDiT架构提升文本-视频关联 [15] 训练优化方案 - 数据筛选：多阶段多层次筛选机制确保高质量训练数据 [16] - 分辨率策略：优先低分辨率训练（256px）降低40倍计算开销，768px tokens量达8万 [17] - 并行方案：结合ColossalAI实现系统级优化，4160 GPU days总成本19.96万美元 [18][19] 推理效率提升 - 压缩技术：4×32×32高压缩比自编码器使768px视频推理时间从30分钟缩短至3分钟 [20][21] - 质量保持：LPIPS 0.049/PSNR 30.777/SSIM 0.872指标优于行业标准 [24] - 未来方向：高压缩比编码器可带来10倍推理加速 [25] 开源生态建设 - 开放内容：完整开源模型权重/推理代码/分布式训练全流程 [4][14] - 社区影响：半年获近百论文引用，全球开源视频生成项目影响力第一 [14] - 应用场景：支持720P/24FPS高画质生成，实现人物动作与物理规律精准模拟 [5][6][7][8][9]