演讲生成黑科技，PresentAgent从文本到演讲视频

核心观点 - PresentAgent是一个能将长篇文档转化为带解说的多模态演示视频的智能体，突破了现有静态幻灯片或文本摘要的局限，生成高度同步的视觉内容和语音解说，模拟人类风格演示[1][9] - 系统通过模块化流程实现文档到视频的转化，包括文档分段、幻灯片生成、语音解说合成及音视同步对齐[3][17] - 提出首个文档到演示视频生成任务，并构建包含30对文档-视频样本的高质量评测数据集Doc2Present Benchmark[12][21] - 开发统一评估框架PresentEval，通过视觉语言模型从内容忠实度、视觉清晰度和观众理解度三个维度评分[6][14] - 实验显示PresentAgent在多项指标上接近人类水平，部分模型如Claude-3.7-sonnet测验准确率达0.64，GPT-4o-Mini视频内容评分达4.8[22][25][26] 技术架构 - 文档处理阶段：对输入文档进行语义分段和提纲生成，支持论文、网页、PDF等多种格式[17][19] - 幻灯片生成：检索最佳模板，利用视觉语言模型生成布局感知的幻灯片，包含结构化内容如技术解释、系统架构等[17][29] - 语音合成：通过大型语言模型生成上下文解说文稿，经TTS转换为音频，并与视觉内容精确同步[3][23] - 评估模块：采用分段策略，结合客观测验（Qwen-VL-2.5-3B）和主观评分（Qwen-Omni-7B）[24] 实验结果 - 测验准确率：Claude-3.7-sonnet以0.64超过人类基准（0.56），其他模型如Qwen-VL-Max和Gemini-2.5-pro均为0.52[22][25] - 视频质量：人类参考视频平均分4.47，GPT-4o-Mini达4.67，Gemini-2.5-flash视觉单项满分5.0但理解性仅3.8[22][26][27] - 音频质量：人类基准4.80，Claude-3.7-sonnet和Qwen-VL-Max分别达4.53和4.60[22][26] 应用场景 - 支持商业报告、产品手册、政策简报、教程类文档等多领域长文本的自动化视频转化[12][13] - 案例显示技术博客可被转化为包含并行化工作流、代理系统架构等专业主题的解说视频[29] 资源信息 - 论文及代码已公开，标题为《PresentAgent: Multimodal Agent for Presentation Video Generation》[8]