JointDiT

搜索文档
值得买与中国人民大学高瓴人工智能学院联合取得AIGC研究成果
证券日报· 2025-06-12 14:40
会议与研究成果 - 2025国际计算机视觉与模式识别会议(CVPR2025)于6月11日至6月15日召开 [2] - 公司与中国人民大学高瓴人工智能学院的联合研究成果《图像转有声视频》入选会议 [2] - 研究首次提出从静态图像生成同步音视频内容的框架JointDiT(Joint Diffusion Transformer) [2] 技术创新与突破 - 成果定义了图像到有声视频生成(I2SV)新任务 使静态图像动态化并生成匹配音频 [2] - JointDiT框架利用视频生成器和音频生成器两个单模态预训练扩散模型 实现多模态协同生成 [2] - 技术为AIGC领域提供创新突破 推动AI多模态高质量发展 [2] 未来研究方向 - 研究团队计划将JointDiT扩展至图像 文本 音频 视频四模态联合建模 [3] - 目标是为构建更通用 更智能的多模态生成系统奠定基础 [3]
原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架
机器之心· 2025-05-29 11:04
本文介绍工作由中国人民大学高瓴人工智能学院宋睿华团队、李崇轩、许洪腾与值得买科技 AI 团队共同完成。第一作者王希华是人大高瓴博士生(导师: 宋睿华),他的研究兴趣主要在多模态生成,之前提出利用音频布局(audio layout)为视频生成同步声音的TiVA模型,已发表在MM 2024。宋睿华的团 队主要研究方向为多模态理解、生成与交互。 想象一下:只需一张静态图片,系统就能自动生成一段「动态的、有声音的」的短视频,画面中的人或物做出自然动作变化的同时,也发出对应的声音—— 比如小鸡抬头打鸣、手指按下快门并伴随咔嚓声,这正是「图像转有声视频(Image-to-Sounding-Video, I2SV)」的目标。 近日,来自中国人民大学高瓴人工智能学院与值得买科技 AI 团队在 CVPR 2025 会议上发表了一项新工作,首次提出了一种从静态图像直接生成同步音视频 内容的生成框架。其核心设计 JointDiT(Joint Diffusion Transformer)框架实现了图像 → 动态视频 + 声音的高质量联合生成。 为什么图像转有声视频是「AI 多模态生成」的新蓝海? 人类对世界的感知本质上是多模态的。视 ...