Workflow
鹅厂开源视频生成大杀器!参考图主体精准复刻,还能编辑现有视频

产品功能 - 公司开源"自定义"视频生成模型HunyuanCustom,主打主体一致性功能,用户仅需一张图片即可确定视频主角,一致性评分达到开源模型SOTA水平[1] - 模型支持单主体参考、多主体参考、局部编辑、角色配音四大功能,其中单主体参考已上线并开源,其余功能计划本月内开源[2][3] - 团队正在与开源社区合作,将适配AI创作者常用的ComfyUI[4] 技术表现 - 在单主体视频定制任务中,HunyuanCustom在身份一致性(Face-Sim)和主体相似性(DINO-Sim)两个指标上分别达到0.627和0.593,超过所有baseline方法[39] - 人物特征保持方面表现优异,包括五官、发色、服饰等细节特征在不同场景下都能保持一致[8][10] - 支持局部视频编辑功能,可对已有视频中的特定对象进行替换[29][30][32] - 支持音频驱动功能,可生成口型匹配的视频,但当前语音合成仍存在机械感问题[35][36][37] 技术架构 - 模型以文生视频模型HunyuanVideo为基础,针对不同任务类型配备相应模块[45] - 图像驱动任务采用LLaVA文本-图像交互模块和身份增强模块,增强对输入图像身份信息的理解和融合[46][47][50] - 音频驱动部分采用身份解耦的AudioNet模块,确保音频条件不影响人物身份一致性[53][54][56] - 视频驱动部分采用视频条件注入策略,通过特征叠加方式保留视频条件中的时空信息[58][59][61] - 训练过程中采用Flow Matching框架优化视频生成模型,并引入辅助损失函数实现多任务学习[67][68][69] 系统要求 - 目前支持720P画质,需要支持CUDA的英伟达GPU[42] - 生成720P视频最少需要24GB显存,推荐配置为80GB显存[43][44]