Workflow
演讲生成黑科技,PresentAgent从文本到演讲视频
机器之心·2025-07-18 16:18

核心观点 - PresentAgent是一个能将长篇文档转化为带解说的多模态演示视频的智能体,突破了现有静态幻灯片或文本摘要的局限,生成高度同步的视觉内容和语音解说,模拟人类风格演示[1][9] - 系统通过模块化流程实现文档到视频的转化,包括文档分段、幻灯片生成、语音解说合成及音视同步对齐[3][17] - 提出首个文档到演示视频生成任务,并构建包含30对文档-视频样本的高质量评测数据集Doc2Present Benchmark[12][21] - 开发统一评估框架PresentEval,通过视觉语言模型从内容忠实度、视觉清晰度和观众理解度三个维度评分[6][14] - 实验显示PresentAgent在多项指标上接近人类水平,部分模型如Claude-3.7-sonnet测验准确率达0.64,GPT-4o-Mini视频内容评分达4.8[22][25][26] 技术架构 - 文档处理阶段:对输入文档进行语义分段和提纲生成,支持论文、网页、PDF等多种格式[17][19] - 幻灯片生成:检索最佳模板,利用视觉语言模型生成布局感知的幻灯片,包含结构化内容如技术解释、系统架构等[17][29] - 语音合成:通过大型语言模型生成上下文解说文稿,经TTS转换为音频,并与视觉内容精确同步[3][23] - 评估模块:采用分段策略,结合客观测验(Qwen-VL-2.5-3B)和主观评分(Qwen-Omni-7B)[24] 实验结果 - 测验准确率:Claude-3.7-sonnet以0.64超过人类基准(0.56),其他模型如Qwen-VL-Max和Gemini-2.5-pro均为0.52[22][25] - 视频质量:人类参考视频平均分4.47,GPT-4o-Mini达4.67,Gemini-2.5-flash视觉单项满分5.0但理解性仅3.8[22][26][27] - 音频质量:人类基准4.80,Claude-3.7-sonnet和Qwen-VL-Max分别达4.53和4.60[22][26] 应用场景 - 支持商业报告、产品手册、政策简报、教程类文档等多领域长文本的自动化视频转化[12][13] - 案例显示技术博客可被转化为包含并行化工作流、代理系统架构等专业主题的解说视频[29] 资源信息 - 论文及代码已公开,标题为《PresentAgent: Multimodal Agent for Presentation Video Generation》[8]