PresentEval

搜索文档
演讲生成黑科技,PresentAgent从文本到演讲视频
机器之心· 2025-07-18 16:18
本项目为AI Geeks、澳洲人工智能研究所、利物浦大学、拉筹伯大学的联合工作。 我们提出了 PresentAgent,一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有方法大多局限于生成静态幻灯片或文本摘要,而我们的方 案突破了这些限制,能够生成高度同步的视觉内容和语音解说,逼真模拟人类风格的演示。 为了实现这一整合,PresentAgent 采用了模块化流程,如图 1 所示,包括以下步骤:1. 系统性地对输入文档进行分段;2. 规划并渲染幻灯片风格的视觉 帧;3. 利用大型语言模型与文本转语音模型生成具有上下文的语音解说;4. 最终将音频与视觉内容精确对齐,无缝组合成完整视频。 图 1 PresentAgent 概览。 该系统以文档(如网页)为输入,经过以下生成流程:(1)文档处理、(2)结构化幻灯片生成、(3)同步字幕创建,以及(4) 语音合成。最终输出为一个结合 幻灯片和同步讲解的演示视频。图中紫色高亮部分表示生成过程中的关键中间输出。 考虑到这种多模态输出的评估难度,我们引入了 PresentEval,一个由视觉-语言模型驱动的统一评估框架,从以下三个关键维度全面打分:内容忠实度 (Con ...
文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平
量子位· 2025-07-11 12:00
核心观点 - PresentAgent是一个多模态智能体,能够自动将结构化或非结构化文档转化为配有语音讲解和同步幻灯片的视频演示,模拟人类演讲者的信息传递方式[1][3] - 该系统在测试集上接近人类水平的表现,适用于商业报告、技术手册、政策简报或学术论文等多种文档类型[4][7][21] - 该技术具有可控性和领域适应性,能够生成高度同步的视觉内容和语音解说,实现动态、有效、易获取的演示格式[20][22] 技术框架 - PresentAgent采用模块化生成框架,流程包括文档处理、结构化幻灯片生成、同步字幕创建和语音合成[9][13] - 具体步骤包括语义分块、布局指导的幻灯片生成、口语化解说文本重写以及语音与幻灯片的时间同步[11] - 系统支持多样化的输入文档形式,如论文、网站、博客、幻灯片或PDF[15][17] 评估方法 - 团队设计了PresentEval评估框架,包含客观测验评估和主观打分评估双路径[18] - 评估维度包括内容忠实度、视觉清晰度和观众理解度,使用视觉-语言模型进行评分[21] - 在30组人工制作的"文档-演示视频对"测试集上,系统表现接近人类水平[21] 应用潜力 - 该技术可显著减少制作高质量演示视频所需的人工精力,涉及内容筛选、幻灯片设计、讲稿撰写等环节[7][8] - 结合语言模型、视觉布局生成与多模态合成,实现可解释、可扩展的自动演示生成系统[23] - 在教育、金融、政策与科研等多个领域具有广泛应用前景[21]