视频虚拟试穿技术

搜索文档
AI 模特时代到来:字节x清华推出商用级视频换装模型DreamVVT,保真度显著领先SOTA
机器之心· 2025-08-15 09:16
技术突破 - 字节跳动智能创作团队联合清华大学推出视频换装模型DreamVVT,基于Diffusion Transformer(DiTs)构建,支持任意类型衣服、处理大幅度人物或相机运动、复杂背景及不同风格输入 [2][6] - 该模型采用两阶段生成框架,解决现有技术依赖成对数据、难以处理复杂场景(如360度旋转、剧烈运镜)导致的服装细节崩坏、纹理丢失及时序抖动问题 [6][8] - 创新性结合静态关键帧试穿与视频语言模型(Video LLM),平衡服装细节保真度与视频时间一致性 [8] 技术细节 - **第一阶段**:智能采样关键帧,通过骨骼运动相似度与人物面积加权评分,筛选信息冗余度最低的关键帧;利用微调Diffusion Transformer生成多帧换装参考图,集成LoRA模块确保多帧间外观一致性 [13][14] - **第二阶段**:基于图生视频(I2V)框架,融合动作信息(2D骨骼序列)、视觉信息(VAE编码)、文本信息(Video LLM描述)及外观信息(关键帧特征),通过全自注意力机制对齐多模态输入 [16][17][18] - 采用拉普拉斯金字塔融合技术无缝嵌入原始背景,并通过多任务学习策略优化生成效果 [19] 性能验证 - 在ViViD-S数据集上,VFID和LPIPS指标达到SOTA;在Wild-TryOnBench评估中,DreamVVT在服装细节保留度(GP 3.41)、物理真实感(PR 3.69)和时序一致性(TC 3.32)全面领先竞品(如CatV²TON GP 1.30、MagicTryOn TC 1.88) [21][23] - 消融实验显示:关键帧数量从1增至2帧可提升细节保真度,LoRA微调比全参数训练更有效增强物理真实感 [24] 应用前景 - 该技术突破为电商、广告及娱乐行业提供高效视频虚拟试穿解决方案,降低传统服装视频广告制作成本 [2][26] - 支持复杂场景下的高保真生成,推动视频虚拟试穿技术向成熟商业应用迈进 [26]