HunyuanVideo

搜索文档
写了两万字综述 - 视频未来帧合成:从确定性到生成性方法
自动驾驶之心· 2025-07-08 20:45
未来帧合成(FFS)综述核心观点 - FFS任务目标是从历史帧或单帧生成未来帧序列,强调合成能力并扩展视频预测范围[1] - 领域经历了从确定性方法向生成性方法的演变,生成模型在产生逼真多样化预测中的作用日益重要[1] - 关键挑战包括平衡像素保真度与场景理解、评估指标设计、长期合成困难等[5] - 未来方向在于预测技术与生成技术的协同整合,实现更稳健连贯的合成[4] 研究方法分类 确定性范式 - 采用CNN、RNN、LSTM等架构进行像素级拟合,但易产生模糊输出[9] - Transformer架构逐渐挑战传统方法主导地位,如ViT、Swin Transformer等[9] - 优化PSNR/SSIM等指标会导致模型对多个未来取平均[10] 随机性范式 - 通过随机变量或概率模型建模视频动态不确定性[10] - 包括VAE、GAN等方法,能产生多样化预测但可能偏离真实值[10] - 面临多样性、视觉保真度和计算效率的平衡挑战[46] 生成性范式 - 优先考虑连贯合理的视频序列而非像素级保真度[10] - 利用扩散模型、LLM等先进生成技术[10] - 在对象出现/消失等复杂场景表现更优[59] 关键技术进展 架构创新 - 循环网络(PredNet、PredRNN)在时空建模中表现突出但计算复杂[26] - 卷积网络(SimVP)简化架构实现相当性能[29] - Transformer架构(TimeSformer、ViViT)处理时空信息能力显著[9] 运动建模 - 光流方法(DMVFN)在短期预测有效,长期生成仍存挑战[31][33] - 3D高斯表示(GaussianPrediction)等新方法探索运动表示[34] - 内容-运动解耦(LEO、D-VDM)提升逼真度[48] 生成模型 - 扩散模型(Video LDM、SEINE)实现高质量视频生成[60][61] - 基于令牌方法(MAGVIT、VideoPoet)探索LLM在视觉生成的应用[67][69] - 大型模型(HunyuanVideo 13B)展现强大生成能力[63] 应用领域 自动驾驶 - GAIA-1整合多模态LLM和扩散模型提升决策能力[74] - 视觉语义信息利用显著改善行为预测[74] 机器人技术 - GR-1/2显示视频生成预训练大幅提升操作能力[75] - 在动态环境中实现高效路径规划和避障[75] 电影制作 - 生成逼真场景增强叙事连贯性和艺术表达[77] - 可控合成技术(CineMaster)支持精确场景控制[58] 数据集发展 - 数据集复杂性和分辨率持续提升(如HD-VILA-100M)[21] - 高质量高分辨率数据集仍稀缺,限制模型泛化能力[18] - 多模态标注(文本、深度、语义等)成为趋势[21]
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
机器之心· 2025-06-28 12:35
视频生成模型效率瓶颈 - 扩散模型在高质量视频生成任务中已成为主流,但DiT模型中的注意力机制计算量随视频长度和分辨率提升急剧增加,成为推理效率最大瓶颈 [1] - 视频生成中DiT通常使用3D全局注意力建模时空一致性,计算量随token数量呈平方增长,生成8秒720p视频需要接近一小时 [1] - 在HunyuanVideo等模型中,注意力模块计算时间占比超过80% [1] 现有加速方法局限性 - 现有稀疏注意力方法如Sparse VideoGen和AdaSpa在GPU上实现了一定加速,但受限于稀疏度不足和稀疏模式设计刚性,效果不理想 [2] - 这些方法依赖固定稀疏算子,缺乏对输入内容的动态适应能力,难以实现细粒度、内容感知的稀疏模式调控 [2] DraftAttention创新方案 - 研究团队提出无需训练、即插即用的动态稀疏注意力方法DraftAttention,实现高达2倍的GPU端到端推理加速 [3] - 核心思想是通过低分辨率"草图注意力图"估计token重要性,指导高分辨率注意力计算中的稀疏模式选择 [11] - 具体流程包括草图构建、草图注意力计算、稀疏模式引导、Token重排以适配硬件等步骤 [12][13] - 该方法可直接插入现有视频扩散模型如HunyuanVideo和Wan2.1中,无需额外训练或微调 [13] 理论验证 - 使用平均池化构建的Draft Attention Map与原始高分辨率Attention Map之间的差异在Frobenius范数意义下有界 [15] - 从Draft Attention Map提取的稀疏注意力模式影响可被严格界定在可控范围内 [15] 实验结果 - 在HunyuanVideo和Wan2.1模型上测试,DraftAttention在高稀疏率(75%~90%)下能更好保留视频时空一致性和关键结构 [20] - 在H100和A100 GPU上实现最高1.75倍端到端推理加速,加速效果随视频长度、分辨率和稀疏率提升 [22] - PSNR在高分辨率下提升约+2~+3分,SSIM一致性更强,LPIPS感知相似度提升 [21] 未来方向 - 计划结合量化与蒸馏等技术,继续优化长视频生成效率瓶颈,推动高质量视频生成模型走向移动端、边缘端等资源受限场景 [47]
清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练
机器之心· 2025-06-18 17:34
核心观点 - 清华大学陈键飞团队提出的SageAttention3实现了5倍于FlashAttention的推理加速,并在多种视频和图像生成大模型中保持端到端精度表现 [2][5] - SageAttention3是首个针对BlackWell架构的全FP4量化即插即用注意力算子,在RTX 5090上达到1040 TOPS速度,比H100上的FlashAttention3快1.65倍 [2] - 该团队还首次提出可训练的8比特注意力(SageBwd)用于大模型训练加速,在微调任务中保持与全精度注意力相同结果 [2] 技术突破 推理加速 - SageAttention系列迭代加速效果:V1(2.1倍)、V2(3倍)、V2++(3.9倍)、V3(5倍) [2] - 在RTX5090上实现HunyuanVideo端到端3倍加速(164s vs 489s),视频质量几乎无损 [5][33] - 算子速度相比FlashAttention2和xformers分别提升5倍和10倍 [22] FP4量化创新 - 采用BlackWell硬件支持的Microscaling FP4量化,选择NVFP4格式(准确率99.52% vs MXFP4的98.37%) [15] - 提出两阶段量化解决P矩阵缩放因子范围狭窄问题,显著提升精度 [15][16] - 算法流程优化实现高效Attention算子,两行代码即可加速任意模型推理 [5] 8比特训练 - 对Q/K/V采用Per-block INT8量化,对P采用无量化Overhead的Per-token量化 [17] - 反向传播中保留dOVT为FP16精度,量化其他四个矩阵乘法 [18] - 在Base Model微调任务中与BF16注意力表现完全一致 [33] 应用效果 - 已应用于多个知名大模型:Vidu、CogvideoX、Mochi、Wan、HunyuanVideo、Flux、Llama3、Qwen等 [1] - 在CogvideoX(2B)上端到端速度从64s提升至27s [33] - 训练加速方面,8比特注意力在微调任务中完全无损,但预训练任务与全精度仍有差距 [34] 硬件适配 - 充分利用BlackWell架构的FP4 Tensor Core,RTX5090速度达FP16 Tensor Core的8倍 [9] - 实现GPU底层CUDA Kernel优化,在算子速度和模型精度上均有显著提升 [21]
腾讯开源的HunyuanVideo-Avatar上传一张图+一段音频,虚拟角色“活”过来
搜狐财经· 2025-06-04 10:48
产品技术特点 - 腾讯开源的HunyuanVideo-Avatar是一个视频生成工具,能够通过上传一张图片和一段音频,让图中的人物、动物或虚拟角色动起来并开口说话、唱歌或表演[1] - 该工具的核心逻辑是"数字人导演",能够从静态图中理解场景,并根据音频情感让角色动起来[3] - 产品包含三个关键模块:1)保留原图细节,避免"网红脸"效果,能精准保留衣服褶皱和背景光影[3] 2)能从音频中提取情感特征,生成细腻表情[4] 3)支持多角色独立互动,唇形、表情、手势和眼神交流自然[5] 应用场景 - 电商直播:可生成24小时在线的AI主播,根据促销文案做出夸张表情刺激用户下单[6] - 音乐平台:QQ音乐用于生成歌手AI分身演唱新歌,酷狗用于长音频绘本虚拟人讲故事,全民K歌支持用户生成专属MV[6] - 影视创作:导演可通过场景草图和旁白脚本生成分镜动画[7] 系统配置要求 - 最低配置需要NVIDIA RTX 3090显卡(24GB显存)才能流畅生成720p视频[8] - 推荐配置为NVIDIA A100显卡(80GB显存)可输出电影级画质[8] - 详细配置要求包括:GPU、内存、存储和CUDA版本[9]
传小米汽车挖一汽南京CTO做智驾;国内手机份额跌出前五,荣耀官宣进军机器人业务;宇树回应更名,王兴兴曾称有可能赴港上市丨AI周报
创业邦· 2025-06-01 11:00
国内AI行业动态 - 宇树科技完成股份制改造,创始人王兴兴表示可能赴港上市[3] - 影石创新员工年龄结构显示90后占比达55.44%[3] - 小米汽车引入前一汽南京CTO陈光担任辅助驾驶感知负责人[3] - DeepSeek开源R1新版模型,性能媲美OpenAI o3模型[3] - 快手可灵AI上线2.1系列模型,生成5秒视频仅需20灵感值[4] - 零次方发布轮式人形机器人Zerith-H1,搭载垂直场景操作基础模型[4] - 傲意科技推出第二代灵巧手ROH-AP001,重量仅640克[6] - 北京市支持制造业企业部署具身智能机器人,最高补贴3000万元[8] - 字节跳动将禁用Cursor等第三方AI开发软件,推自研Trae替代[8] - 大疆进入扫地机器人市场,首款产品预计6月发布[9] - 荣耀确认进军机器人业务,展示跑步速度达4m/s的机器人[9] - 腾讯开源混元语音数字人模型HunyuanVideo-Avatar[13] - 全球首个《人形机器人智能化分级》标准发布,建立L1-L5分级体系[14] - 小米否认玄戒O1采用Arm定制,强调自主研发设计[15] - 雷鸟发布X3 Pro AR眼镜,搭载豪威定制空间摄像头[19] - 菜鸟计划6月推出多款无人车型,升级AI自动驾驶功能[31] - 网易数智发布CoreAgent智能体开发平台及多款行业智能体[31] 海外AI行业动态 - 特斯拉Model Y自动驾驶车型将于6月交付[33] - xAI与Telegram达成3亿美元合作协议部署Grok聊天机器人[35] - 英伟达CEO黄仁勋计划出售至多600万股股票,价值约8.09亿美元[38] - 英伟达Q1净利润187.8亿美元,同比增长26%[38] - OpenAI表示将加大对亚洲投资,开发开源模型[38] - Meta计划增设实体零售店销售智能眼镜等硬件产品[39] - 沙特AI公司Humain寻求美国科技公司投资,初始资金100亿美元[40] - Netflix联合创始人哈斯廷斯加入Anthropic董事会[40] - OpenAI计划2026年推出首款AI硬件产品[41] - OpenAI模型o3被发现拒绝执行关闭指令[42] - 特斯拉展示Optimus机器人完成家务和烹饪任务[43] - 前特斯拉高管质疑Optimus适合工厂工作的说法[43] - 马斯克称AI将取代搜索引擎[43] - 软银孙正义密访鸿海洽谈AI服务器采购[44] - Figure机器人F.03正式开始行走[44] - 微软开源浏览器Agent Magentic-UI,任务完成率提升至51.9%[47] - 英伟达将为中国推出低价Blackwell架构AI芯片,售价6500-8000美元[47] - 谷歌发布Veo 3 AI视频生成模型,获马斯克称赞[48] - OpenAI与io合作AI硬件预计2027年量产[50] AI投融资概况 - 本周全球AI融资事件12起,总融资规模19.2亿元人民币[51] - 早期融资9起,成长期3起[53] - 国内融资集中在上海(5起)、江苏(2起)、广东(2起)、四川(2起)[55] - 国内融资总额12.03亿元,地瓜机器人完成1亿美元A轮融资[58] - 海外融资总额7.17亿元,LMArena完成1亿美元种子轮融资[63]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-05-31 02:51
芯片与算力 - 英伟达推出「阉割版」GPU [2] - 海光信息并购中科曙光以增强算力 [2] 模型发展 - DeepSeek开源新版R1模型 [2] - Odyssey发布世界模型 [2] - Claude Opus攻破30年历史的bug [2] - 阿里推出QwenLong-L1-32B模型 [2] - Google发布Gemma变体模型 [2] - Claude采用RLVR范式 [2] - 字节推出BAGEL模型 [2] - 红杉中国推出xbench基准测试 [2] 应用创新 - 可灵更新至2.1版本 [2] - 腾讯多产品接入R1模型 [2] - Opera推出Neon浏览器 [2] - VAST升级Tripo Studio [2] - Zochi推出AI Scientist [2] - Claude新增语音模式 [2] - AKOOL推出实时摄像头功能 [2] - 腾讯混元发布HunyuanVideo-Avatar [2] - 扣子空间推出文本生成播客功能 [2] - 腾讯元宝整合读书app功能 [2] - 阿联酋提供ChatGPT Plus免费服务 [2] - OpenAI推出GPT-4o唱歌功能 [3] - Kyutai开发模块化语音AI [3] - 秘塔AI搜索推出极速模型 [3] - 雷鸟发布AI眼镜X3 Pro [3] - VideoTutor推出AI老师功能 [3] - 企业微信推出智能机器人 [3] - Google发布Veo3实测功能 [3] - OpenAI发现o3l漏洞 [3] - 腾讯启动野朋友计划 [3] - OpenAI爆料AI项链 [3] 科技进展 - 优理奇推出Wanda 2.0 [3] - 波士顿动力升级Atlas机器人 [3] - SpaceX完成星舰九飞 [3] - 北航开发UAV-FlowColosseo [3] - 杭州举办机器人格斗比赛 [3] - 苹果更新iOS 19系统 [3] - AI科学家团队研发治盲新药 [3] 行业观点 - Google讨论AI平台变革 [3] - Claude4核心成员探讨长程任务能力 [3] - NVIDIA提供AI就业建议 [3] - Anthropic预测白领工作自动化 [3] - Anthropic分析AI产品生长逻辑 [3] - Character.AI被评为最佳AI应用 [3] 资本动态 - Salesforce收购Informatica [3] - SpAItial获得3D生成融资 [3] - Lilian Weng投资Thinking Machines [3] 行业事件 - Meta面临人才流失问题 [3]
100观察 | 即时零售行业正在转向 告别低价“内卷”,品质与服务成关键
每日经济新闻· 2025-05-30 18:33
即时零售行业竞争格局 - 京东推出"京东外卖"品牌并实施"百亿补贴",与美团、饿了么在即时零售领域展开竞争 [1] - 美团CEO王兴认为市场竞争促进行业发展,但"低质低价"的"内卷式"竞争不可持续 [1][9] - 行业集体转向以"品质"为核心战略,京东外卖定位"品质外卖",淘宝升级"小时达"为"淘宝闪购" [1] - 监管层约谈外卖平台企业,对"低质低价"与"内卷式"竞争进行约束 [1] 美团闪购业绩表现 - 美团闪购"618"首日成交额同比增长2倍 [4] - 酒类成交额同比增长超18倍,白酒首日成交额同比增长超70倍 [4] 小米芯片研发进展 - 小米澄清玄戒O1芯片非向Arm定制,未采用Arm CSS服务 [3] - 该事件彰显小米在半导体领域自主研发的阶段性突破 [3] 中国海油项目进展 - 巴西Mero4项目投产,使用全球最大FPSO之一 [5] - FPSO设计原油日处理能力18万桶,天然气日处理能力1200万立方米 [5] - 项目投产后将使油田整体原油日产量提高到77万桶 [5] 腾讯AI技术突破 - 腾讯混元发布并开源语音数字人模型HunyuanVideo-Avatar [6] - 该模型支持多种景别、风格和场景,提供高一致性视频生成能力 [6] - 强化腾讯在生成式AI领域的领先地位 [7] 比亚迪电池技术 - 刀片电池和闪充刀片电池提前通过电池新国标全项检测 [8] - 获得中汽中心权威机构认证证书 [8] 长安汽车人事变动 - 新任命两名产品CEO分别管理引力、启源品牌 [10] - 狄智睿任启源产品CEO,袁志雄任引力产品CEO [10] 广汽集团战略合作 - 与阿里云就海外市场拓展达成多项合作 [11] - 合作内容包括海外数字化基建、车联网系统部署等 [11] - 已完成海外车联网系统部署 [11]
国际产业新闻早知道:欧盟计划设立科技企业扩大基金,AMD加码CPO共封装光学
产业信息网· 2025-05-29 14:22
人工智能 - 欧盟计划设立规模至少100亿欧元(113亿美元)的公私合营基金,以帮助科技企业扩大规模,缩小与美国和中国的创新差距 [4] - DeepSeek开源新版R1模型,性能媲美OpenAI最新的o3模型高版本 [5] - Telegram与xAI达成一年期合作,将Grok集成到Telegram应用中,Telegram将获得3亿美元现金和股权 [6] - 腾讯混元发布并开源语音数字人模型HunyuanVideo-Avatar,支持多风格视频生成 [7][8] - 亚马逊云科技与SAP启动AI联合创新计划,整合双方技术构建生成式AI应用 [9][10] - Salesforce拟80亿美元收购数据管理平台公司Informatica,增强AI市场竞争力 [11] - AI基础设施初创公司Chalk完成5000万美元A轮融资,估值达5亿美元 [12] 芯片 - 美国计划禁止向中国出口半导体设计软件,影响Cadence、Synopsys及Siemens EDA等公司 [14][15] - 欧盟承认《欧洲芯片法案》目标难以实现,成员国探索差异化发展路径 [16][17] - 荷兰牵头成立"芯片申根区"联盟,成员国可能扩展至14-15个 [18][19] - 芬兰专注于芯片设计、光子学和嵌入式系统等细分领域 [24][25] - 英伟达CEO黄仁勋表示中国AI将继续发展,不受美国芯片限制影响 [31][32][33] - AMD收购硅光子初创企业Enosemi,加码共封装光学技术 [37][38] - 台积电将在德国慕尼黑设立欧洲芯片设计中心,2025年第三季度开放 [40] 航空航天 - 中俄举行第十六次卫星网络协调会谈,就160余项议题达成共识 [42] - 西昌卫星发射中心成功实施天问二号"零窗口"发射,开启中国首次小行星探测任务 [43][44] - 苹果曾计划投入3600万美元与波音合作推出卫星互联网服务,后因成本过高搁浅 [48][49][50] 能源矿产 - 特朗普政府取消对Sunnova能源公司的30亿美元贷款 [55] - 中国石化设立氢能产业链创业投资基金,推动氢能技术创新 [56] - 南非和谐黄金以10.3亿美元收购澳洲MAC铜业,溢价20.7% [57] 汽车 - 德国三大车企宝马、奔驰和大众正与美国商务部谈判,希望以投资换取关税豁免 [59][60] - 通用汽车将投资8.88亿美元在纽约工厂提高发动机产量 [61][62] - 华为向上汽转让"尚界"商标申请已获核准 [67] - 岚图FREE+发布逍遥座舱2.0,搭载华为鸿蒙座舱HarmonySpace 5 [68] - 蔚来能源与极氪能源达成充电互联互通合作 [69][70]
字节内部禁用Cursor等AI编程工具;泡泡玛特回应Labubu品控不佳;大疆即将发布扫地机器人首款产品丨邦早报
创业邦· 2025-05-29 08:04
字节跳动AI开发工具调整 - 字节跳动将于6月30日起分批次禁用Cursor等第三方AI开发软件,改用自研编程助手Trae作为替代方案 [3] - Trae国内版于3月推出,定位为"国内首个AI原生集成开发环境工具" [3] - Trae海外版本周推出付费方案,Pro版首月收费3美元/月 [3] 比亚迪经销商事件 - 比亚迪回应山东经销商济南乾城资金链断裂事件,称该经销商盲目扩张并加杠杆运营导致问题 [3] - 去年底以来该经销商部分4S店已被当地其他经销商收购 [3] - 比亚迪表示正在对该经销商进行纾困支持,协助处理客户及员工问题 [3] 希音IPO进展 - 希音在伦敦IPO受阻后转向筹备香港上市,计划年内提交招股书并完成上市 [5] - 2月希音将伦敦IPO目标估值下调至约500亿美元,较2023年660亿美元估值缩水近25% [5] - 无论最终选择哪个市场上市,希音IPO估值都将受到国际关税政策变化冲击 [5] 科技公司动态 - 苹果酝酿史上最大规模软件品牌重塑,下一代操作系统将采用基于年份的命名方式(如iOS 26) [8] - 大疆研发扫地机器人已超过四年,首款扫拖一体机器人预计6月发布 [10] - 荣耀CEO李健在发布会上意外官宣进军机器人业务,展示的机器人跑步速度达4m/s打破行业记录 [10] 新能源汽车 - 小鹏MONA M03 Max正式上市,502km续航版12.98万元起,600km续航版13.98万元起 [8] - 一汽奔腾悦意07全球上市,定位SUV市场,提供150km/210km两种续航,指导价9.98万-12.99万元 [18] - 2025款五菱星光上市,提供纯电/插混两种动力形式,插混版7.68万-9.48万元,纯电版9.98万-11.58万元 [20] 人形机器人标准 - 全球首个《人形机器人智能化分级》L1-L5标准出炉,构建"四维五级"评价框架 [22] - 四大能力维度包括感知认知(P)、决策学习(D)、执行表现(E)、协作交互(C) [22] - 标准由北京人形机器人创新中心牵头,联合多家企业及科研院所共同制定 [22] 融资与收购 - 地平线机器人旗下地瓜机器人完成1亿美元A轮融资,将在6月发售RDK S100机器人开发套件 [17] - 丰田向美国空中的士公司Joby Aviation投资2.5亿美元,去年已承诺共投资5亿美元 [17] - 摩托罗拉解决方案公司宣布以44亿美元收购无线电制造商Silvus Technologies [17] 市场数据 - 5月1-25日全国乘用车市场零售135.8万辆,同比增长16%,新能源零售72.6万辆,同比增长31% [26] - 新能源市场零售渗透率达53.5%,今年以来累计零售405万辆,同比增长35% [26] - 2025端午档预售票房破1000万,《碟中谍8》以507.23万元暂列第一 [22][25]
Getty Images斥资数百万美元对抗AI文生图公司;腾讯发布并开源混元语音数字人模型丨AIGC日报
创业邦· 2025-05-29 08:04
扫码订阅 AIGC 产业日报, 2.【腾讯发布并开源混元语音数字人模型】腾讯混元发布并开源的语音数字人模型HunyuanVideo- Avatar,由腾讯混元视频大模型及腾讯音乐天琴实验室MuseV技术联合研发,支持头肩、半身与全身 景别,以及多风格、多物种与双人场景,面向视频创作者提供高一致性、高动态性的视频生成能力。 用户可上传人物图像与音频,HunyuanVideo-Avatar模型会自动理解图片与音频,比如人物所在环 境、音频所蕴含的情感等,让图中人物自然地说话或唱歌,生成包含自然表情、唇形同步及全身动作 的视频。(证券时报) 3.【Getty Images斥资数百万美元对抗AI文生图公司】视觉内容公司Getty Images首席执行官克雷格 ·彼得斯表示,这家图片授权公司正投入数百万美元资金,起诉Stability AI。彼得斯指出,以文生图 模型Stable Diffusion闻名的英国初创公司Stability AI及其他AI实验室,为商业利益窃取受版权保护 的内容训练AI模型。(新浪科技) 4.【韩国拟今年投入4800亿韩元开发AI相关产品和服务】韩国产业通商资源部周三表示,韩国今年将 斥资约 ...