你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!
机器之心·2025-08-30 12:12

数字人视频生成技术现状与挑战 - 当前语音驱动人类视频生成技术仅能合成时长不足15秒的短视频,超过此时长会出现明显的身体变形与外观不一致现象[2] - 现有方法如利用运动帧或滑动窗口机制只能有限提升长视频平滑性,无法从根本上解决无限时长视频的质量退化问题[2] - 将长音频切分为片段分别处理再拼接的方案会在衔接处引入不一致和突兀的过渡,端到端的无限时长高保真视频生成仍是重大挑战[3] StableAvatar框架核心技术 - 该框架基于Wan2.1-1.3B基座模型开发,通过Wav2Vec模型提取音频嵌入,并采用新型Timestep-aware Audio Adapter优化以减少潜变量分布误差累积[7][11] - 提出Audio Native Guidance机制替代传统CFG,通过修改去噪得分函数引导生成过程朝向音频同步性与自然性,强化音频与潜变量的联合分布[9][15] - 引入动态加权滑动窗口去噪策略,在相邻窗口重叠潜变量上采用对数插值分布进行融合,保证视频生成的平滑性[17] 技术应用前景 - 语音驱动人类视频生成技术在电影制作、游戏制作、虚拟现实、直播带货等领域具有广泛的应用前景[2] - StableAvatar框架实现了无限时长音频驱动的高保真人类视频生成,其代码已开源,包括推理和训练代码[5]