腾讯混元推出AI数字人技术：一张照片配音频即可生成唱歌视频

腾讯发布开源语音数字人模型HunyuanVideo-Avatar - 公司正式发布并开源语音数字人模型HunyuanVideo-Avatar 该技术仅需用户提供一张人物图像和一段音频文件即可自动生成包含自然表情、精准唇形同步以及全身动作的动态视频内容 [1] - 该模型基于腾讯混元视频大模型与MuseV技术深度融合开发具备强大的多模态理解能力能够自动识别输入图像中的人物环境信息以及音频所承载的情感内容 [1] - 模型突破了传统数字人技术仅支持头部驱动的局限性全面支持头肩、半身与全身三种景别模式同时覆盖多种艺术风格和多物种角色驱动并具备双人或多人互动场景的处理能力 [1] 技术架构与应用场景 - 模型采用多模态扩散Transformer（MM-DiT）作为核心架构通过角色图像注入模块确保视频中人物的一致性表现音频情感模块能够从声音和图像中提取情感特征 [2] - 针对多人场景模型配备面部感知音频适配器利用人脸掩码技术实现多角色的独立精准驱动 [2] - 该模型已在腾讯音乐娱乐集团多个核心产品中实现落地应用包括QQ音乐的AI虚拟形象同步演唱酷狗音乐的AI虚拟人讲故事以及全民K歌的用户专属MV生成功能 [2] 技术优势与开放计划 - 在主体一致性和音画同步准确度方面已达到业内领先水平超越现有开源和闭源解决方案在画面动态性和肢体自然度表现上与其他主流闭源方案处于同等技术水准 [2] - 单主体功能已在腾讯混元官方网站开放体验用户可通过"模型广场-混元生视频-数字人-语音驱动"路径访问相关功能当前支持不超过14秒的音频文件上传 [3] - 公司将逐步开源更多高级功能模块此次开源举措将推动AI视频生成技术的普及应用为短视频创作、电商营销、广告制作等垂直领域提供低成本的技术解决方案 [3]