Workflow
腾讯混元推出AI数字人技术:一张照片配音频即可生成唱歌视频
835670数字人(835670) 凤凰网·2025-05-28 17:23

官方表示,HunyuanVideo-Avatar在主体一致性和音画同步准确度方面已达到业内领先水平,超越现有 开源和闭源解决方案。在画面动态性和肢体自然度表现上,与其他主流闭源方案处于同等技术水准。 目前,HunyuanVideo-Avatar的单主体功能已在腾讯混元官方网站开放体验,用户可通过"模型广场-混元 生视频-数字人-语音驱动"路径访问相关功能。系统当前支持不超过14秒的音频文件上传,后续将逐步 开源更多高级功能模块。 腾讯此次开源举措将推动AI视频生成技术的普及应用,为短视频创作、电商营销、广告制作等垂直领 域提供低成本的技术解决方案。 凤凰网科技讯 5月28日,腾讯混元团队联合腾讯音乐天琴实验室正式发布并开源语音数字人模型 HunyuanVideo-Avatar。该技术仅需用户提供一张人物图像和一段音频文件,即可自动生成包含自然表 情、精准唇形同步以及全身动作的动态视频内容。 HunyuanVideo-Avatar基于腾讯混元视频大模型与MuseV技术深度融合开发。该模型具备强大的多模态理 解能力,能够自动识别输入图像中的人物环境信息以及音频所承载的情感内容,进而生成高度匹配的视 频片段。以实际 ...