Workflow
幻灯片智能体
icon
搜索文档
第二代PPTAgent来了!中科院软件所开源首个本地通用幻灯片智能体,9B参数打平GPT-5
机器之心· 2026-03-18 15:39
文章核心观点 - 中国科学院软件研究所发布并开源了第二代PPT智能体DeepPresenter,其通过创新的“智能体沙箱环境”和“环境感知反思机制”,解决了当前通用大语言模型生成PPT时内容空洞、排版错乱等核心痛点,实现了媲美顶级闭源模型的性能,且能在消费级硬件上部署[2][4][25][26] 技术架构与创新 - **核心破局点**:放弃传统语言模型直接生成路径,为智能体构建了全功能的Docker沙箱环境,赋予其“手”和“眼睛”[4] - **解决内容痛点**:智能体拥有20+种专业工具,可通过MinerU解析PDF、连接arXiv和Google Scholar进行深度调研,并运行Python代码绘制图表,确保内容专业与数据准确[4] - **解决排版痛点**:引入“环境感知反思机制”,智能体在生成每页代码后,会调用浏览器渲染成真实图片进行视觉检查,并自适应调整,形成“写→看→改”的视觉闭环[7] - **工作流程**:用户只需一行简单指令,系统会启动Researcher智能体检索资料,再交棒给Presenter智能体设计风格,最终输出精美幻灯片[8] 性能表现与优势 - **评测结果**:在128个任务的系统评测中,仅9B参数的DeepPresenter模型在PPTEval评测中取得平均4.19分,表现与闭源的GPT-5模型(4.22分)几乎持平,并显著优于其他开源及闭源基线方案[23][25] - **成本效益**:DeepPresenter-9B在成本-性能曲线上位于“突变点”,以GPT-5几十分之一的算力成本实现了同等级别的智能表现,意味着可在消费级显卡(如单张3090或Mac)上部署运行[2][26] - **输出格式**:生成内容为`.pptx`可编辑格式,支持自由修改与二次创作,解决了某些工具生成后无法编辑的问题[15] 应用案例与能力展示 - **任务示例**:系统能处理多样化的复杂指令,例如制作关于小米SU7的PPT、以特定视角分享同人创作技巧的幻灯片,以及生成包含历史背景和文化影响的罗宾汉介绍PPT等[10][13][15] - **工作流演示**:通过模拟的智能体操作日志展示了从研读论文、创建图表、撰写文稿到设计、检查并调整幻灯片样式的完整Agentic工作流程[6] 模型训练方法 - **训练流水线**:创新训练方法包括基于多源数据构建高多样性任务数据、引入独立模型进行“外在验证引导”以打破自我验证偏差,并通过多级轨迹过滤从1,152个任务中筛选出802条顶级质量轨迹进行监督微调(SFT)[18][20]