核心技术突破 - 推出商用级长时序音频驱动人物视频生成模型InfinityHuman 创造性解决长期动画中身份漂移和细节失真两大核心难题 [2][6] - 通过姿态引导优化技术确保数字人在长时间视频中保持面部特征 光影风格一致性 避免传统技术中越生成越不像问题 [8] - 采用手部特定奖励反馈学习机制 精准捕捉手部交互和面部微表情 显著提升手部关键点准确性 减少手指畸变和关节异常 [8][13] 技术实现框架 - 采用由粗到细策略 先通过低分辨率音视频生成模块得到粗略动作视频 再通过姿态引导细化模块生成高分辨率视频 [11] - 低分辨率模块基于Flow Matching和DIT 融合多模态信息并通过多模态条件注意力机制增强音视频对齐 [11] - 姿态引导细化模块利用参考图像作为身份先验 通过前缀潜变量参考策略确保长时生成中的时序连贯性与外观一致性 [11] 性能表现 - 在EMTD和HDTF数据集评估中 视觉真实感(FID)和时序连贯性(FVD)指标均优于FantasyTalking Hallo3等主流基线方法 [13] - 消融实验表明移除姿态引导模块会导致视觉质量下降 身份一致性减弱 取消手部奖励机制则使手部关键点精度下降 [13] - 实现高分辨率长时长视频生成任务中真实感 一致性与动作自然度的全面提升 支持生成30秒至3分钟专业级视频 [4][14] 商业化应用 - 已实现电商带货虚拟主播沉浸式讲解 企业培训虚拟讲师课程录制 自媒体数字人主播每日内容量产等多场景商用级应用 [7][8] - 对中文语音支持效果尤为出色 在分钟级长视频中保持身份稳定与手部动作自然 充分满足中文内容创作需求 [7] - 技术部署至商业化即创平台 为内容创作 教育培训 电商直播等领域提供低成本高质量数字人解决方案 [16] 技术生态布局 - 团队形成从基础研究到商业化落地的完整技术链路 涵盖语音合成与视频生成两大方向 [15] - 语音合成领域推出MegaTTS3 Make-An-Audio 2等模型 视频生成领域构建覆盖长视频 3D肖像 实时驱动的完整技术矩阵 [16] - 通过GitHub开源平台分享多项核心技术 包括长视频模型HumanDiT 个性化3D建模MimicTalk等研究成果 [16]
长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
机器之心·2025-09-04 12:11