Workflow
HunyuanVideo
icon
搜索文档
腾讯混元开源游戏AI生成新工具!RTX 4090就能制作3A级动态内容
量子位· 2025-08-14 15:34
腾讯开源游戏视频生成框架Hunyuan-GameCraft - 腾讯推出全新开源游戏视频生成框架Hunyuan-GameCraft,专为游戏环境设计,可实时生成流畅画面 [1][7] - 操作门槛极低,仅需单张场景图+文字描述+动作指令即可生成高清动态游戏视频 [8] - 支持多种风格(水墨风、古希腊等)及复杂场景生成(动态天气、NPC互动) [2][4][6][18] 技术突破与核心优势 - 解决传统工具三大瓶颈:动作僵硬(仅支持简单平移/转身)、场景静态(依赖预渲染)、长期一致性差(切换视角后场景变形) [19][20][21] - 三大核心优势:自由流畅(支持高精度控制如角度/速度)、记忆增强(混合历史条件建模)、成本骤降(仅需消费级显卡RTX 4090) [24][26] - 基于HunyuanVideo构建,通过四大技术模块实现精准交互响应:交互信号统一编码、混合历史条件建模、模型蒸馏优化、扩散过程动作控制 [30][31][32][33] 性能表现与数据支撑 - 光流一致性得分比次优模型高18.3%,动作响应延迟低至87ms,PSNR/SSIM领先5%-12% [35] - 细粒度控制任务中准确响应92%离散动作输入(基线模型仅65%),长时序生成误差低60%以上 [37][39] - 主观评估真实感评分4.2/5,可控性4.1/5,"愿意持续交互"比例达78%(对比模型1.5-2倍) [35] 应用场景与数据训练 - 适用游戏开发、视频创作、3D设计,无需专业建模知识 [24] - 训练数据包含上百款3A游戏(如《刺客信条》《赛博朋克2077》)及3000个高质量运动序列 [25][28] - 通过合成数据构建与分布平衡策略优化泛化能力 [28][34]
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
机器之心· 2025-07-12 12:50
研究背景与动机 - 扩散模型和扩散Transformer在视频生成领域广泛应用,显著提升了AI合成视频的质量和连贯性,如OpenAI Sora、HunyuanVideo、Wan2.1等模型已能生成结构清晰、细节丰富且高度连贯的长视频内容 [3] - 当前扩散模型存在推理慢、算力消耗高的问题,例如HunyuanVideo生成5秒720P视频在单张H20上需2小时,限制了实时互动和移动端应用 [4] - 核心瓶颈在于扩散模型需多次迭代去噪,每一步都需完整神经网络前向推理,导致大量冗余计算 [5] 方法创新:EasyCache设计与原理 - EasyCache是一种无需训练、无需模型结构改动的推理加速框架,通过动态检测模型输出的「稳定期」复用历史计算结果以减少冗余推理步骤 [7] - 研究发现扩散模型在去噪初期输出变化剧烈需完整推理,中后期「变换速率」趋于稳定,行为近似线性,可通过复用历史结果跳过冗余计算 [12][13] - 采用自适应缓存机制,通过变换速率度量(Kt)和累计误差阈值(Et)动态判断是否复用缓存,前R步为warm-up确保初期结构信息不丢失 [15][19] 实验结果与性能 - 在HunyuanVideo上实现2.2倍加速,PSNR提升36%至32.66,SSIM提升14%至0.9313,LPIPS大幅下降至0.0533,视频质量几乎无损 [17][20] - 在Wan2.1上取得2.54倍加速,PSNR达25.24,SSIM 0.8337,LPIPS 0.0952,优于Static cache和TeaCache等方法 [20] - 在图像生成任务(FLUX.1-dev)实现4.64倍加速,FID降至23.2,CLIP Score保持26.1 [21][22] - 与SVG等稀疏注意力技术叠加后平均加速达3.3倍,总体推理时长从2小时缩短至33分钟 [23][26] 技术优势与行业影响 - 可视化对比显示EasyCache生成的视频在细节、结构和清晰度上与原模型几乎一致,显著优于静态缓存和TeaCache等方法 [24][25] - 该技术为视频扩散模型提供了极简、高效、训练无关的推理加速新范式,为实际应用落地奠定基础 [27] - 未来有望通过持续优化进一步逼近「实时视频生成」目标,推动数字内容创作和多媒体娱乐行业变革 [27]
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
机器之心· 2025-06-28 12:35
视频生成模型效率瓶颈 - 扩散模型在高质量视频生成任务中已成为主流,但DiT模型中的注意力机制计算量随视频长度和分辨率提升急剧增加,成为推理效率最大瓶颈 [1] - 视频生成中DiT通常使用3D全局注意力建模时空一致性,计算量随token数量呈平方增长,生成8秒720p视频需要接近一小时 [1] - 在HunyuanVideo等模型中,注意力模块计算时间占比超过80% [1] 现有加速方法局限性 - 现有稀疏注意力方法如Sparse VideoGen和AdaSpa在GPU上实现了一定加速,但受限于稀疏度不足和稀疏模式设计刚性,效果不理想 [2] - 这些方法依赖固定稀疏算子,缺乏对输入内容的动态适应能力,难以实现细粒度、内容感知的稀疏模式调控 [2] DraftAttention创新方案 - 研究团队提出无需训练、即插即用的动态稀疏注意力方法DraftAttention,实现高达2倍的GPU端到端推理加速 [3] - 核心思想是通过低分辨率"草图注意力图"估计token重要性,指导高分辨率注意力计算中的稀疏模式选择 [11] - 具体流程包括草图构建、草图注意力计算、稀疏模式引导、Token重排以适配硬件等步骤 [12][13] - 该方法可直接插入现有视频扩散模型如HunyuanVideo和Wan2.1中,无需额外训练或微调 [13] 理论验证 - 使用平均池化构建的Draft Attention Map与原始高分辨率Attention Map之间的差异在Frobenius范数意义下有界 [15] - 从Draft Attention Map提取的稀疏注意力模式影响可被严格界定在可控范围内 [15] 实验结果 - 在HunyuanVideo和Wan2.1模型上测试,DraftAttention在高稀疏率(75%~90%)下能更好保留视频时空一致性和关键结构 [20] - 在H100和A100 GPU上实现最高1.75倍端到端推理加速,加速效果随视频长度、分辨率和稀疏率提升 [22] - PSNR在高分辨率下提升约+2~+3分,SSIM一致性更强,LPIPS感知相似度提升 [21] 未来方向 - 计划结合量化与蒸馏等技术,继续优化长视频生成效率瓶颈,推动高质量视频生成模型走向移动端、边缘端等资源受限场景 [47]
清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练
机器之心· 2025-06-18 17:34
核心观点 - 清华大学陈键飞团队提出的SageAttention3实现了5倍于FlashAttention的推理加速,并在多种视频和图像生成大模型中保持端到端精度表现 [2][5] - SageAttention3是首个针对BlackWell架构的全FP4量化即插即用注意力算子,在RTX 5090上达到1040 TOPS速度,比H100上的FlashAttention3快1.65倍 [2] - 该团队还首次提出可训练的8比特注意力(SageBwd)用于大模型训练加速,在微调任务中保持与全精度注意力相同结果 [2] 技术突破 推理加速 - SageAttention系列迭代加速效果:V1(2.1倍)、V2(3倍)、V2++(3.9倍)、V3(5倍) [2] - 在RTX5090上实现HunyuanVideo端到端3倍加速(164s vs 489s),视频质量几乎无损 [5][33] - 算子速度相比FlashAttention2和xformers分别提升5倍和10倍 [22] FP4量化创新 - 采用BlackWell硬件支持的Microscaling FP4量化,选择NVFP4格式(准确率99.52% vs MXFP4的98.37%) [15] - 提出两阶段量化解决P矩阵缩放因子范围狭窄问题,显著提升精度 [15][16] - 算法流程优化实现高效Attention算子,两行代码即可加速任意模型推理 [5] 8比特训练 - 对Q/K/V采用Per-block INT8量化,对P采用无量化Overhead的Per-token量化 [17] - 反向传播中保留dOVT为FP16精度,量化其他四个矩阵乘法 [18] - 在Base Model微调任务中与BF16注意力表现完全一致 [33] 应用效果 - 已应用于多个知名大模型:Vidu、CogvideoX、Mochi、Wan、HunyuanVideo、Flux、Llama3、Qwen等 [1] - 在CogvideoX(2B)上端到端速度从64s提升至27s [33] - 训练加速方面,8比特注意力在微调任务中完全无损,但预训练任务与全精度仍有差距 [34] 硬件适配 - 充分利用BlackWell架构的FP4 Tensor Core,RTX5090速度达FP16 Tensor Core的8倍 [9] - 实现GPU底层CUDA Kernel优化,在算子速度和模型精度上均有显著提升 [21]
AI周报 | xAI新一轮融资后估值有望超1200亿美元;OpenAI重组计划生变
第一财经资讯· 2025-05-11 09:39
xAI融资动态 - xAI正洽谈新一轮融资 估值可能达到1200亿美元 潜在融资规模200亿美元[1] - 若融资完成 将成为史上第二大初创公司融资 仅次于OpenAI的400亿美元融资[1] OpenAI公司治理调整 - OpenAI撤回营利实体重组计划 非营利组织保持控制权 营利实体将转型为公益公司(PBC)[2] - 新架构下投资者持有普通股且增值不受限 旨在提升未来融资能力[2] 技术合作与开源进展 - 腾讯优化DeepSeek的DeepEP通信框架 RoCE网络性能提升100% IB网络提升30%[3] - 腾讯混元开源多模态视频生成工具HunyuanCustom 主体一致性优于现有开源方案[8] 行业竞争格局变化 - 苹果计划在Safari引入AI搜索选项 谷歌母公司Alphabet股价单日跌7% 市值蒸发1500亿美元[4] - AI编程工具Cursor开发商Anysphere完成9亿美元融资 估值达90亿美元 较去年12月增长246%[5][6] 高管变动与人才战略 - OpenAI任命Instacart CEO菲吉·西莫为应用主管 强化商业化能力[7] 人形机器人技术迭代 - 逐际动力发布31自由度人形机器人CL-3 云深处推出四足机器人M20[9] - 行业持续优化运动性能 8月将举办世界人形机器人运动会[9]
腾讯混元发布并开源视频生成工具HunyuanCustom,支持主体一致性生成
快讯· 2025-05-09 12:22
腾讯混元团队发布多模态视频生成工具 - 腾讯混元团队于5月9日发布并开源多模态定制化视频生成工具HunyuanCustom [1] - 该工具基于混元视频生成大模型(HunyuanVideo)打造 [1] - 在主体一致性效果方面超过现有开源方案,可媲美顶尖闭源模型 [1] HunyuanCustom技术特点 - 融合文本、图像、音频、视频等多模态输入生成视频的能力 [1] - 具备高度控制力和生成质量的智能视频创作工具 [1]
ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」
机器之心· 2025-05-07 15:37
AI视频生成技术发展 - AI视频生成技术进入快速爆发阶段,扩散模型展现出接近现实的生成效果,但速度瓶颈成为大规模应用的主要障碍 [1] - 当前主流视频生成模型(如Wan 2.1、HunyuanVideo)在单张H100 GPU上生成5秒720p视频需耗时30分钟以上,其中3D Full Attention模块占推理时间的80%以上 [1][6] Sparse VideoGen解决方案 - 加州伯克利和MIT研究者提出无需重新训练模型的加速方法Sparse VideoGen,通过挖掘注意力机制的空间与时间稀疏性,将推理时间减半 [2][4] - 该方法支持Wan 2.1、HunyuanVideo、CogVideoX等开源模型,适用于T2V和I2V任务,代码已开源并被ICML 2025收录 [4][8] 扩散式视频生成的性能瓶颈 - 基于Transformer的Video Diffusion Transformers(DiTs)在建模长时空依赖方面优势显著,但3D Full Attention带来巨大计算负担 [6] - Attention计算复杂度随分辨率和帧数呈二次增长,远高于普通图像生成模型 [6] Sparse VideoGen核心技术 - 识别Attention Map中的空间稀疏性(Spatial Head)和时间稀疏性(Temporal Head),分别负责局部空间一致性和跨帧时间一致性 [9][10][11][12] - 采用动态自适应稀疏策略,通过在线稀疏模式优化方法(Online Profiling)选择最优稀疏模式,仅需0.1%的Token采样即可实现精准预测 [15][16][17] 算子层优化 - 引入硬件友好的布局转换方法,将帧为主存储改为token为主存储,优化Temporal Head的内存访问模式 [20] - 定制化优化QK-Norm和RoPE模块,QK-Norm平均加速比达7.4倍,RoPE平均加速比达14.5倍 [21] 实验成果 - Sparse VideoGen在H100上使HunyuanVideo推理时间从30分钟降至15分钟,Wan 2.1从30分钟降至20分钟,PSNR稳定在29dB以上 [23] - 该方法展示视频生成模型可通过结构理解+自适应稀疏性实现性能突破,而非单纯扩大模型规模 [24]
11B模型拿下开源视频生成新SOTA!仅用224张GPU训练,训练成本省10倍
量子位· 2025-03-13 11:28
开源视频生成模型Open-Sora 2.0发布 - 核心观点:Open-Sora 2.0以20万美元低成本实现11B参数规模,性能接近30B闭源模型,全面开源模型权重与训练流程 [1][3][4][10] - 技术突破:训练成本降低5-10倍,相比百万美元级闭源模型具有显著成本优势 [2][3][13] - 性能表现:在VBench评测中与OpenAI Sora差距从4.52%缩小至0.69%,超越腾讯HunyuanVideo [12] 模型性能与架构 - 参数规模:11B参数媲美30B闭源模型HunyuanVideo和Step-Video [1][10] - 评估结果:在视觉表现/文本一致性/动作表现三个维度超越Runway Gen-3 Alpha等商业模型 [11] - 架构创新:采用3D自编码器+Flow Matching框架,引入MMDiT架构提升文本-视频关联 [15] 训练优化方案 - 数据筛选:多阶段多层次筛选机制确保高质量训练数据 [16] - 分辨率策略:优先低分辨率训练(256px)降低40倍计算开销,768px tokens量达8万 [17] - 并行方案:结合ColossalAI实现系统级优化,4160 GPU days总成本19.96万美元 [18][19] 推理效率提升 - 压缩技术:4×32×32高压缩比自编码器使768px视频推理时间从30分钟缩短至3分钟 [20][21] - 质量保持:LPIPS 0.049/PSNR 30.777/SSIM 0.872指标优于行业标准 [24] - 未来方向:高压缩比编码器可带来10倍推理加速 [25] 开源生态建设 - 开放内容:完整开源模型权重/推理代码/分布式训练全流程 [4][14] - 社区影响:半年获近百论文引用,全球开源视频生成项目影响力第一 [14] - 应用场景:支持720P/24FPS高画质生成,实现人物动作与物理规律精准模拟 [5][6][7][8][9]