鹅厂开源视频生成大杀器！参考图主体精准复刻，还能编辑现有视频

产品功能 - 公司开源"自定义"视频生成模型HunyuanCustom，主打主体一致性功能，用户仅需一张图片即可确定视频主角，一致性评分达到开源模型SOTA水平[1] - 模型支持单主体参考、多主体参考、局部编辑、角色配音四大功能，其中单主体参考已上线并开源，其余功能计划本月内开源[2][3] - 团队正在与开源社区合作，将适配AI创作者常用的ComfyUI[4] 技术表现 - 在单主体视频定制任务中，HunyuanCustom在身份一致性（Face-Sim）和主体相似性（DINO-Sim）两个指标上分别达到0.627和0.593，超过所有baseline方法[39] - 人物特征保持方面表现优异，包括五官、发色、服饰等细节特征在不同场景下都能保持一致[8][10] - 支持局部视频编辑功能，可对已有视频中的特定对象进行替换[29][30][32] - 支持音频驱动功能，可生成口型匹配的视频，但当前语音合成仍存在机械感问题[35][36][37] 技术架构 - 模型以文生视频模型HunyuanVideo为基础，针对不同任务类型配备相应模块[45] - 图像驱动任务采用LLaVA文本-图像交互模块和身份增强模块，增强对输入图像身份信息的理解和融合[46][47][50] - 音频驱动部分采用身份解耦的AudioNet模块，确保音频条件不影响人物身份一致性[53][54][56] - 视频驱动部分采用视频条件注入策略，通过特征叠加方式保留视频条件中的时空信息[58][59][61] - 训练过程中采用Flow Matching框架优化视频生成模型，并引入辅助损失函数实现多任务学习[67][68][69] 系统要求 - 目前支持720P画质，需要支持CUDA的英伟达GPU[42] - 生成720P视频最少需要24GB显存，推荐配置为80GB显存[43][44]