图像提供身份，文本定义一切！腾讯开源多模态视频定制工具HunyuanCustom

多模态视频生成技术 - 腾讯混元团队推出并开源多模态定制化视频生成框架HunyuanCustom，支持图像、文本、音频和视频等多种输入模态，提供高度可控且高质量的视频生成能力 [1] - 传统图生视频或文生视频模型难以保持人物身份不变，HunyuanCustom通过引入基于LLaVA的图文融合模块和时间级联的图像ID增强机制解决"变脸难题" [3] - HunyuanCustom支持上传照片生成定制化视频内容，支持音频驱动让视频中人物"开口说话"，支持视频输入实现个性化内容植入 [5] 系统架构与性能表现 - HunyuanCustom设计了多个关键模块，在训练与推理阶段实现图像、语音、视频等模态的解耦控制，为多模态生成提供灵活接口 [6] - 在对比测试中，HunyuanCustom在主体一致性（0.627）方面显著领先其他模型，DINO-Sim得分达0.593，整体视频质量评分（DD）为0.71 [9] - 测试对比模型包括VACE、Skyreels、Pika、Vidu、Keling和Hailuo等主流视频定制方法 [8] 技术实现与数据构建 - 团队引入Qwen、YOLO、InsightFace、GroundingSAM2等模型协同构建数据标签体系，覆盖人类、动物、植物、建筑、动画等多个主体类型 [11] - 训练采用Flow Matching框架，结合结构化标注和mask增强策略，提升模型泛化能力与编辑灵活度 [11] - 技术模块包括LLaVA图文交互模块、图像ID增强模块、AudioNet模块和视频驱动注入模块 [11] 产品发布与体验 - HunyuanCustom的单主体生成能力已在混元官网上线，用户可在"模型广场-图生视频-参考生视频"中体验，其他能力将于5月内陆续对外开源 [10] - 提供体验入口、项目官网、代码仓库和技术报告等资源链接 [12]