Workflow
Claude Code Skills
icon
搜索文档
独一份!带动效的 PPT 生成 Agent!使用教学&创作思路
歸藏的AI工具箱· 2026-01-13 15:28
文章核心观点 - 作者成功开发并开源了一个名为“NanoBanana PPT Skills”的复杂AI代理工具,该工具能够利用Claude Code等CLI工具,根据用户文档自动生成带有动态转场动画的演示文稿,显著提升了PPT的视觉效果和专业性 [4][5][9] - 该技能的构建过程展示了AI编码能力已达到一个临界点,AI能够自我指挥和构建复杂系统,其开发成本约为20美元,主要使用了Anthropic的Sonnet 4.5模型 [40][41] 更新后PPT生成技能的核心能力 - 生成PPT时会询问用户是否生成视频转场,选择“是”则会同时导出图片版演示和视频版演示 [5] - 视频演示包含两部分:一个设计好的网页播放器,以及一个完整的演示视频文件 [6][9] - 网页播放器设计特点:仅在切换页面时播放转场视频,页面内容为静态图片以方便讲解;首页封面设计为无限循环的动态视频,适用于演讲前等待或暖场环节 [7] - 完整的演示视频方便用户直接分享和展示 [9] 技能的使用与安装方法 - 该技能用于Claude Code或OpenCode等支持Skills的CLI工具,项目已在GitHub开源 [12][15] - 使用前需准备两个API:Google AI Studio的API(需开启付费以调用Nano Banana Pro模型生成图片)和可灵AI的API(用于生成转场动画视频,建议使用69元体验包) [17][18][19] - 安装过程通过向Claude Code发送特定提示词完成,提示词中包含设置技能目录、克隆项目、安装依赖、配置API密钥等步骤,用户需将提示词中的三个API密钥替换为自己的 [21][22] - 安装完成后,在存放目标文档的文件夹中启动Claude Code,通过指令调用技能即可,技能会引导用户选择PPT页数、是否添加动效、图片分辨率等选项,之后全自动运行 [23][25] 技能的系统架构与创作思路 - 整体架构复杂,涉及多个模块协同工作,作者通过让Claude Code绘制架构图来厘清逻辑 [31][32] - 核心工作流程包括:分析用户输入文档并规划内容;调用PPT生成模块和风格加载器;生成图片提示词并调用Nano Banana Pro API生成图片;为每页转场生成首尾帧提示词;调用可灵API的Kling-2.6视频模型Pro模式生成转场视频;生成嵌入视频和图片的演示网页;使用本地的FFmpeg将图片和视频剪辑成完整演示视频;最终输出视频并打开演示网页 [34][35] - 关键技术点:设计了一个“元提示词”,由Claude Code根据该提示词和生成的图片来生成具体的视频转场提示词,这种方法被认为具有潜在价值 [36] - 复杂处理环节:FFmpeg的视频合成流程涉及图片时长控制、与视频分辨率对齐、最终拼接和压缩等 [38] 开发经验与行业观察 - 开发过程本身是重要的学习经历,通过构建复杂Agent可以深入理解其难点与逻辑,并对市面上的同类产品形成判断 [38] - Claude Code在开发中提供了多方面辅助,包括绘制流程图解释逻辑、指导API密钥存储方式、生成清晰的Readme文档以降低使用门槛,甚至指导如何在GitHub添加演示视频 [39] - 整个技能的开发基本由Claude Code(使用Sonnet 4.5模型)完成,总API费用约为20美元,获得了可通用的PPT生成代理,性价比突出 [40] - 结合Anthropic公司透露其Cowork功能与Claude Code基本由Claude Code自身编写,作者认为AI编码已达到“自我指挥”和“自我复制”的临界点,当前节点可能成为未来发展的重要里程碑 [41][42]