Playmate

搜索文档
ICML 2025|趣丸研发新型人脸动画技术,声音+指令精准控制表情
机器之心· 2025-06-05 12:40
技术框架与核心创新 - 提出Playmate框架:基于3D隐式空间引导扩散模型的双阶段训练框架,通过解耦面部属性(表情、唇部动作、头部姿态)实现高可控肖像动画生成[3][13] - 创新运动解耦模块:采用自适应归一化策略分离表情与头部姿态参数,其中表情归一化使用全局统计量(μ_δ=Σδ_i,j/MN_i,σ_δ=√Σ(δ_i,j-μ_δ)²/MN_i),头部姿态归一化按身份独立计算(μ_ρ_i=Σρ_i,j/N_i)[18][19] - 引入情绪控制模块:通过Diffusion Transformer Blocks实现情感条件编码,支持权重调节(音频权重w_a=4,情绪权重w_e=6时最优)[22][24] 性能优势与实验结果 - 关键指标领先:在HDTF数据集上FID达19.138(竞品30.484-29.581),FVD为231.048(竞品288.385-306.683),身份一致性CSIM 0.848(竞品0.781-0.840)[28][29] - 唇同步优化:Sync-C分数8.580优于多数竞品(Hallo2为7.754),Sync-D距离6.985接近最优(Sonic为6.549)[28] - 多场景适用性:支持7种基础情绪(Angry/Happy/Surprised等)控制,可生成真实人脸、动画及艺术风格肖像[11][31] 应用场景与行业价值 - 技术应用:已实现音频驱动视频生成(如唱歌场景),支持影视、游戏、社交领域的虚拟角色创作[1][8] - 开源生态:项目代码即将开源,配套提供论文(ICML 2025收录)、GitHub仓库及演示网站[4] - 行业突破:解决现有技术三大痛点——唇同步不准(SyncNet置信度提升12%)、控制灵活性不足(解耦误差降低19%)、情感表达受限(支持7类情绪切换)[12][33] 实现路径与技术细节 - 双阶段训练:第一阶段构建运动序列生成器,第二阶段集成情绪控制器[16] - 特征处理流程:外观特征提取器(VGG19感知损失)+运动提取器(关键点/旋转矩阵)+变形模块+解码器[17] - 扩散模型架构:采用噪声预测损失L_diff=𝔼‖ε-ε̂_θ‖²,通过Wav2Vec2提取音频特征并自注意力对齐[20][23]