Workflow
PresentAgent
icon
搜索文档
演讲生成黑科技,PresentAgent从文本到演讲视频
机器之心· 2025-07-18 16:18
核心观点 - PresentAgent是一个能将长篇文档转化为带解说的多模态演示视频的智能体,突破了现有静态幻灯片或文本摘要的局限,生成高度同步的视觉内容和语音解说,模拟人类风格演示[1][9] - 系统通过模块化流程实现文档到视频的转化,包括文档分段、幻灯片生成、语音解说合成及音视同步对齐[3][17] - 提出首个文档到演示视频生成任务,并构建包含30对文档-视频样本的高质量评测数据集Doc2Present Benchmark[12][21] - 开发统一评估框架PresentEval,通过视觉语言模型从内容忠实度、视觉清晰度和观众理解度三个维度评分[6][14] - 实验显示PresentAgent在多项指标上接近人类水平,部分模型如Claude-3.7-sonnet测验准确率达0.64,GPT-4o-Mini视频内容评分达4.8[22][25][26] 技术架构 - **文档处理阶段**:对输入文档进行语义分段和提纲生成,支持论文、网页、PDF等多种格式[17][19] - **幻灯片生成**:检索最佳模板,利用视觉语言模型生成布局感知的幻灯片,包含结构化内容如技术解释、系统架构等[17][29] - **语音合成**:通过大型语言模型生成上下文解说文稿,经TTS转换为音频,并与视觉内容精确同步[3][23] - **评估模块**:采用分段策略,结合客观测验(Qwen-VL-2.5-3B)和主观评分(Qwen-Omni-7B)[24] 实验结果 - **测验准确率**:Claude-3.7-sonnet以0.64超过人类基准(0.56),其他模型如Qwen-VL-Max和Gemini-2.5-pro均为0.52[22][25] - **视频质量**:人类参考视频平均分4.47,GPT-4o-Mini达4.67,Gemini-2.5-flash视觉单项满分5.0但理解性仅3.8[22][26][27] - **音频质量**:人类基准4.80,Claude-3.7-sonnet和Qwen-VL-Max分别达4.53和4.60[22][26] 应用场景 - 支持商业报告、产品手册、政策简报、教程类文档等多领域长文本的自动化视频转化[12][13] - 案例显示技术博客可被转化为包含并行化工作流、代理系统架构等专业主题的解说视频[29] 资源信息 - 论文及代码已公开,标题为《PresentAgent: Multimodal Agent for Presentation Video Generation》[8]
文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平
量子位· 2025-07-11 12:00
核心观点 - PresentAgent是一个多模态智能体,能够自动将结构化或非结构化文档转化为配有语音讲解和同步幻灯片的视频演示,模拟人类演讲者的信息传递方式[1][3] - 该系统在测试集上接近人类水平的表现,适用于商业报告、技术手册、政策简报或学术论文等多种文档类型[4][7][21] - 该技术具有可控性和领域适应性,能够生成高度同步的视觉内容和语音解说,实现动态、有效、易获取的演示格式[20][22] 技术框架 - PresentAgent采用模块化生成框架,流程包括文档处理、结构化幻灯片生成、同步字幕创建和语音合成[9][13] - 具体步骤包括语义分块、布局指导的幻灯片生成、口语化解说文本重写以及语音与幻灯片的时间同步[11] - 系统支持多样化的输入文档形式,如论文、网站、博客、幻灯片或PDF[15][17] 评估方法 - 团队设计了PresentEval评估框架,包含客观测验评估和主观打分评估双路径[18] - 评估维度包括内容忠实度、视觉清晰度和观众理解度,使用视觉-语言模型进行评分[21] - 在30组人工制作的"文档-演示视频对"测试集上,系统表现接近人类水平[21] 应用潜力 - 该技术可显著减少制作高质量演示视频所需的人工精力,涉及内容筛选、幻灯片设计、讲稿撰写等环节[7][8] - 结合语言模型、视觉布局生成与多模态合成,实现可解释、可扩展的自动演示生成系统[23] - 在教育、金融、政策与科研等多个领域具有广泛应用前景[21]