Workflow
多模态视频生成
icon
搜索文档
腾讯混元推出全新多模态视频生成工具 现已开源并上线官网
搜狐财经· 2025-05-10 22:48
腾讯混元推出多模态视频生成工具Hunyuan Custom - 腾讯混元于5月9日正式推出并开源全新多模态定制化视频生成工具Hunyuan Custom [1] - 该工具基于混元视频生成大模型Hunyuan Video打造 [1] Hunyuan Custom的核心功能 - 具备强大的多模态融合能力,可同时处理文本、图像、音频、视频等多种输入形式 [3] - 相比传统视频生成模型,在生成质量和控制力方面有显著提升 [3] - 提供多种视频生成模式:单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑 [3] - 单主体生成能力已开源并在混元官网上线,其他能力将于5月内陆续开源 [3] 技术优势 - 突破传统模型在人物一致性和场景变换方面的限制 [3] - 单主体生成模式下,只需上传一张图片和文本描述即可生成连贯自然的视频内容 [3] - 支持多主体视频生成,让多个主体按要求出现在视频里 [3] 扩展应用场景 - 音频驱动模式下可生成数字人直播、虚拟客服、教育演示等场景的音视频同步效果 [4] - 视频驱动模式下支持将图片中的人物或物体自然地替换或插入到任意视频片段中 [4] - 适用于创意植入、场景扩展、视频重构与内容增强等应用 [4]
图像提供身份,文本定义一切!腾讯开源多模态视频定制工具HunyuanCustom
AI科技大本营· 2025-05-09 17:35
多模态视频生成技术 - 腾讯混元团队推出并开源多模态定制化视频生成框架HunyuanCustom,支持图像、文本、音频和视频等多种输入模态,提供高度可控且高质量的视频生成能力 [1] - 传统图生视频或文生视频模型难以保持人物身份不变,HunyuanCustom通过引入基于LLaVA的图文融合模块和时间级联的图像ID增强机制解决"变脸难题" [3] - HunyuanCustom支持上传照片生成定制化视频内容,支持音频驱动让视频中人物"开口说话",支持视频输入实现个性化内容植入 [5] 系统架构与性能表现 - HunyuanCustom设计了多个关键模块,在训练与推理阶段实现图像、语音、视频等模态的解耦控制,为多模态生成提供灵活接口 [6] - 在对比测试中,HunyuanCustom在主体一致性(0.627)方面显著领先其他模型,DINO-Sim得分达0.593,整体视频质量评分(DD)为0.71 [9] - 测试对比模型包括VACE、Skyreels、Pika、Vidu、Keling和Hailuo等主流视频定制方法 [8] 技术实现与数据构建 - 团队引入Qwen、YOLO、InsightFace、GroundingSAM2等模型协同构建数据标签体系,覆盖人类、动物、植物、建筑、动画等多个主体类型 [11] - 训练采用Flow Matching框架,结合结构化标注和mask增强策略,提升模型泛化能力与编辑灵活度 [11] - 技术模块包括LLaVA图文交互模块、图像ID增强模块、AudioNet模块和视频驱动注入模块 [11] 产品发布与体验 - HunyuanCustom的单主体生成能力已在混元官网上线,用户可在"模型广场-图生视频-参考生视频"中体验,其他能力将于5月内陆续对外开源 [10] - 提供体验入口、项目官网、代码仓库和技术报告等资源链接 [12]
腾讯混元发布并开源视频生成工具HunyuanCustom,支持主体一致性生成
快讯· 2025-05-09 12:22
腾讯混元团队发布多模态视频生成工具 - 腾讯混元团队于5月9日发布并开源多模态定制化视频生成工具HunyuanCustom [1] - 该工具基于混元视频生成大模型(HunyuanVideo)打造 [1] - 在主体一致性效果方面超过现有开源方案,可媲美顶尖闭源模型 [1] HunyuanCustom技术特点 - 融合文本、图像、音频、视频等多模态输入生成视频的能力 [1] - 具备高度控制力和生成质量的智能视频创作工具 [1]