Workflow
演讲生成黑科技,PresentAgent从文本到演讲视频
机器之心·2025-07-18 16:18

本项目为AI Geeks、澳洲人工智能研究所、利物浦大学、拉筹伯大学的联合工作。 我们提出了 PresentAgent,一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有方法大多局限于生成静态幻灯片或文本摘要,而我们的方 案突破了这些限制,能够生成高度同步的视觉内容和语音解说,逼真模拟人类风格的演示。 为了实现这一整合,PresentAgent 采用了模块化流程,如图 1 所示,包括以下步骤:1. 系统性地对输入文档进行分段;2. 规划并渲染幻灯片风格的视觉 帧;3. 利用大型语言模型与文本转语音模型生成具有上下文的语音解说;4. 最终将音频与视觉内容精确对齐,无缝组合成完整视频。 图 1 PresentAgent 概览。 该系统以文档(如网页)为输入,经过以下生成流程:(1)文档处理、(2)结构化幻灯片生成、(3)同步字幕创建,以及(4) 语音合成。最终输出为一个结合 幻灯片和同步讲解的演示视频。图中紫色高亮部分表示生成过程中的关键中间输出。 考虑到这种多模态输出的评估难度,我们引入了 PresentEval,一个由视觉-语言模型驱动的统一评估框架,从以下三个关键维度全面打分:内容忠实度 (Con ...