歸藏的AI工具箱
搜索文档
Gemini 的 PPT 生成:使用技巧及模板提示词
歸藏的AI工具箱· 2025-11-05 14:02
Gemini APP 前几天上线了 PPT 生成的能力,我昨天尝试了一下发现相当可以啊。 由于用的前端代码的方式实现,所以我们可以 用提示词控制的非常细 ,包括 PP T 的各种风格细节,生成的质量比 Anthropic 那一坨强多了。 另外这东西 可以跟 Gemini 本身和谷歌其他产品的各种功能打通。 这次的内容我会先介绍一下具体这个功能怎么使用,然后分享一些我探索出来的各种 Gemini PPT 生成提示词。 如果你不想要复杂的内容的话,让 Gemini 帮你生成 PPT 很简单。 在输入框开启 Canvas 模式,然后直接跟他说以"XXXX"为主题帮我生成 PPT 就可以了。 比如你可以去 Google 幻灯片编辑 PPT 的细节,导出成 PPT 格式,也可以将深度研究的结果 变成 PPT。 而且 Gemini 是自带搜索的,所以你甚至可以完全让他帮你填充内容,比如我这里就让他搜 O pen AI 最近的算力投资信息然后生成 PPT。 然后你可能会注意到,生成的结果右上角有个选项可以下载,下载下来的结果是 PDF 格式 的。 看到这里你可能就得说了 PDF 没有用啊,我需要 PPT 格式的。 别着急, ...
承包你的品牌营销物料|谷歌再发重磅 AI 设计产品
歸藏的AI工具箱· 2025-10-29 15:59
产品定位与发布 - 谷歌实验室发布新AI设计产品Pomelli,专注于帮助企业低成本生成符合品牌调性的营销物料[4] - 用户只需提供官网链接,产品即可自动提取品牌设计元素如主题色、产品能力和定位,并根据输入的活动内容生成海报等营销素材[4] - 该产品目前在美国、加拿大、澳大利亚和新西兰推出[4] 核心功能:品牌DNA提取 - 产品通过输入官网地址分析品牌信息,包括配色、字体、产品能力等,并创建详细的品牌DNA卡片[7][9][11] - 品牌DNA卡片包含产品Logo、品牌字体、主要配色、图片素材、产品能力及商业定位关键词[11] - 若官网信息不足(如仅有一个输入框的AI产品),则产品难以有效工作,且提取的信息可手动修改[13] 创意生成与排版 - 基于品牌DNA,产品可生成多个用于预览的设计稿,用户输入营销活动内容后会自动优化文案并规划排版[15][17] - 生成过程提供三个广告内容创意供用户选择,选定后会生成四种不同排版风格的图片选项[17][19][20] - 排版风格包括专业背景、科技感、人文风格和纯文字排版等不同类型[20] 细节微调与定制化 - 用户可选择喜欢的图片进行微调,主要调整部分包括背景图片、标题、内容文案和号召按钮[23] - 背景图片来源于官网爬取的素材或由Nano Banana生成,文案内容可通过魔法棒图标重新生成,字体可调整[23] - 号召按钮默认不生成,需手动点击生成,其颜色与网站按钮颜色保持一致,确保品牌一致性[25] - 提供"Fix Layout"功能以修复文案修改后的对齐问题,最终可下载生成的海报和营销物料[27] 产品优势与当前局限 - 产品交互和点子优秀,适用于临时救急和批量生产广告内容,操作成本低且自定义程度高[7][30] - 局限性包括非常依赖官网信息和内容,生成的图片美学风格和排版较为单调[31][32] - 背景图片素材控制较弱,目前完全不支持控制图像比例,对于需要多种比例图片的广告投放平台(如Meta)不友好[32] - 技术方案基于前端代码驱动,好处是可精准控制品牌要求高的内容(如主题色和字体),坏处是效果较割裂且无法使用更丰富的效果[32]
AI 音乐都发展成这样了?藏师教你一键生成爆款 AI 音乐
歸藏的AI工具箱· 2025-10-16 21:19
AI音乐生成技术演进 - Suno V5模型在音乐生成质量上实现显著突破,音频清晰度极高,用户难以分辨AI生成内容与真人演唱的区别[1] - 该模型支持多维度的音乐元素控制,包括风格提示词、自定义歌词、分段落提示词以及音频上传修改功能,超越了早期版本仅能处理简单提示词的限制[5] - 新增Studio专业模式提供分音轨生成和控制能力,类似专业音频软件的操作逻辑[5] 市场应用与传播热度 - AI生成音乐内容在短视频平台呈现爆发式传播,单个作品获得数十万点赞成为普遍现象[3] - 技术应用范围扩展至热门娱乐形式,例如近期流行的《技能五子棋》也采用AI技术生成背景音乐[3] - 模型支持对经典歌曲进行多风格重混音,例如使用陶喆风格演绎《搁浅》或贾斯丁·比伯风格演绎《兰亭序》[6] 技术操作流程设计 - 工作流分为垫音生成(基于原曲调重新混音)和纯提示词生成(完全创新曲调)两种核心模式[6] - 操作界面包含歌词标注系统(方括号内提示词控制演唱风格)、全局风格设置、人声性别选择等专业参数[7] - 关键参数包括怪异值(控制音乐偏离主流程度)和风格遵循度(控制模型自由发挥空间)[8] 提示词工程体系 - 开发出结构化提示词生成模板,通过大型语言模型自动生成符合Suno要求的专业提示词[9] - 全局风格提示词需包含四大要素:核心曲风、标志性乐器编配、音色与演唱技巧、制作与节奏特点[10][11] - 分段指令系统要求智能划分歌词结构(主歌、副歌、桥段等),并为每个段落设计符合歌曲发展逻辑的编曲指令[12] 版权规避与商业化应用 - 针对版权限制提供两种解决方案:用户自主翻唱录制或使用翻唱音频规避版权检测[20] - Audio Influence参数允许控制生成声音与原始音频的相似度,低设置值可避免音色复刻风险[20] - 技术特性使Suno具备替代传统调音师的潜力,特别适用于内容创作者进行音乐后期处理[20] 行业影响评估 - AI音乐技术从纯生成逻辑转向编辑创作逻辑,大幅提升自由度和准确性[21] - 该技术可能打破音乐行业现有格局,使经典音乐作品能够被低成本、高质量地重新混音创作[21] - 与传统音乐平台低质量Remix内容相比,AI生成音乐在艺术质量上具备明显优势[23]
藏师傅想解决 Claude Code 最恶心的问题
歸藏的AI工具箱· 2025-10-14 21:12
项目背景与痛点 - 开发者在配置Claude Code时面临环境变量管理难题,需频繁切换不同模型(如Anthropic、智谱、Kimi、Qwen、Codex等)的代理API,导致操作复杂且耗时[1] - 更换原生Claude 4.5代理API时需清理环境变量,非命令行熟练用户操作困难,每次更换需花费较长时间并依赖AI辅助[1] 项目解决方案 - 开源项目ai-claude-start通过临时注入环境变量实现多模型API配置管理,启动时允许用户选择模型和服务商,避免污染原始Claude Code设置[2][4] - 支持快速启动多个不同模型驱动的Claude Code进程,提升使用灵活性[2] 安装与配置流程 - 支持npm和npx两种安装方式,需预先安装Node.js环境[5] - 通过命令`ai-claude-start setup`启动初始配置,核心配置项包括模型API地址、API Key及模型名称[7][12] - 内置Anthropic、智谱、Kimi三家服务商的预置API地址,用户仅需填写模型名称和API Key即可快速配置[9] - 支持Custom自定义模式,可手动输入配置名称、API地址、模型名称和API Key[11] - 配置完成后输入`Cluade-Start`命令即可选择模型启动,简化小白用户操作流程[14] 技术实现与开发过程 - 项目需求通过GPT-5讨论生成,由Claude Sonnet 4.5完成代码编写,开发者仅负责测试和需求描述[16][19] - 项目要求包含密钥安全存储(优先keytar)、子命令管理(setup/list/default/delete/doctor)、运行时环境变量清理等特性[17] - 开发过程中通过AI自动测试修复简单问题,最终由Claude Code指导完成npm发布流程[19][20] 项目资源与支持 - 提供详细中文README文档,包含自定义命令说明和完整项目结构[15] - 项目开源地址为https://github.com/op7418/ai-claude-start,鼓励用户提交Pull Request参与改进[22]
太猛了!终于有人来管管 AI 视频的语音和表演了:GAGA AI 实测
歸藏的AI工具箱· 2025-10-10 18:03
模型核心能力 - 专注于人物对话表演,在人物细微表演对话方面表现最强,表演能力甚至超过Sora2 [1] - 模型具备泛化智能,能自主推导并生成未在提示词中明确指定的细微表情和动作,如叹气、点头、挑眉等 [2][5] - 支持声音和画面同步生成,即使侧面视角下唇形同步也非常到位,语音音效俱全 [4] - 在复杂情绪表现上极为出色,能精准演绎羞耻、自责、绝望、恳求等细微情绪变化及语音配合 [9][10] 技术规格与性能 - 支持图生视频,单次生成最长10秒,分辨率为720P但细节丰富 [4] - 支持双人场景演绎,能很好理解提示词中不同人物的语音和互动,但超过双人表现会下降 [4][11][16] - 支持多语言输出,包括英语、日语、西班牙语,并可实现多语言混合输出,各语言表现标准如母语者 [6][7][8] - 目前仅支持16:9横屏比例,后续将支持9:16竖屏比例 [16] 应用场景与提示词使用 - 提示词编写可先描述情绪变化,再说明语气和内容,停顿可用波折号或省略号表达 [16] - 在复杂场景(如雨天、车内隔窗对话)中能自动添加环境音(雨声)和应景背景音乐(钢琴BGM),增强氛围渲染 [10] - 需避免复杂精细的手部运动提示词,手部动作可能存在瑕疵;图生时也应避免过多肢体或全身露出 [6][16] - 对于短对话(如十字以内)可选择5秒生成时长,长对话可选择10秒 [16] 行业发展趋势 - AI视频模型发展进入新阶段,重点从复杂动态、物理表现转向情绪表达、表演以及音效语音的端到端多模态一体化输出 [16] - 模型开始内化世界知识和智能,具备视觉推理、分镜脚本编排和剪辑能力,这部分能力原被认为需由Agent完成 [16][17]
Sora 2 中国首测?Open AI 这次真成了!
歸藏的AI工具箱· 2025-10-01 04:32
模型核心能力 - 该模型被描述为当前世界上最强的视频生成模型,具备卓越的人物ID保持能力,仅需用户录制三段视频(包括说三个数字和转转头)即可克隆其人脸和声音 [1] - 模型具备世界知识,能够理解复杂提示词并生成符合逻辑的视频内容,例如在雨天场景中人物未打伞时脸上会有雨水效果 [4][8] - 视频生成具备自动分镜和镜头切换能力,能够根据对话者自动调整镜头位置,展现出成熟的视频编排和故事逻辑创作能力 [8][11] - 支持多模态输入,用户可上传图片(如马、汽车、香水瓶)并结合简单提示词生成视频,实现人物、场景和物体ID的一致性保持 [6][7][9] 技术性能表现 - 语音克隆效率极高,仅需不到2秒的语音样本(三个数字)即可完成音色克隆,并支持中文、日语、英语等多种语言 [1] - 在复杂提示词遵循方面表现优异,能够精确匹配动作细节(如篮球投掷、教练喊话)和场景转换(从白天到黄昏的长镜头),音效同步精准 [13][14] - 支持多人物合拍功能,用户可在生成视频时@其他用户,实现人物间的互动对话,且对话内容具有逻辑性和深度 [1][15][16] 产品形态与市场定位 - 公司为该模型推出了一个社交APP,其形态类似于AI版的抖音,用户可邀请朋友合拍AI视频,且视频生成服务免费 [1] - 产品设计了“Ramix”功能,用户可通过简单提示词(如“在城堡”)对现有视频进行二次创作,改变场景和装扮同时保持人物面部一致性 [5] - 该模型被定位为真正面向C端用户的视频生成工具,集成了声音、音效、运镜和分镜规划,大幅降低了高质量视频内容的创作门槛 [17]
告别抽卡!全能&高度可控|藏师傅教你用即梦数字人 1.5
歸藏的AI工具箱· 2025-09-29 18:10
产品核心升级 - 数字人Omnihuman 1.5版本在Web端上线,相较于1.0版本,其控制能力大幅提升,用户可定义视频中人物的表演和运动方式,解决了以往AI视频在人物表现方面的难点 [1] - 新增动作描述提示词输入功能,极大拓展数字人的使用场景,可控制画面内容、人物、情绪、音色以及运动和运镜方式,使其成为自定义程度极高的工具 [2] - 模型升级使数字人不再死板,可通过动作控制让镜头和人物动起来,包括主角和背景人物,实现如先抬头调整角度再开始说话,同时镜头旋转、背景人物行走等复杂动作,这是纯唇形同步模型无法做到的 [4] 技术能力突破 - 模型在多风格化及非人形生物的唇形同步上效果自然,平面插画的眼睛、嘴部和面部运动生动,并可搭配抬手、走动等动作,镜头平移时新画面风格与原有部分保持一致 [5] - 对表情和表演的响应显著提升,能够精准遵循复杂提示词,如从平静到讽刺再到温和的16秒长视频中,稳定保持人像ID不变并实现精准的提示词遵循,这在市场上较为罕见 [6] - 新增控制同一场景多人对话和表现的功能,可指定发声角色,实现两人对唱、多人对话剧情,搭配图像编辑能力调整镜头重点,超越固定镜头的表现限制 [7] - 解决了以往模型夸张嘴型问题,模型会根据声音内容和提示词调整嘴部动作,表现自然度大幅提升 [8] 操作流程与教程 - 制作视频需准备三部分内容:首帧图片、音频、对应的动作和情绪提示词,建议使用表格规划每个分镜的这三个部分,通过切分镜头和音频使画面更生动,避免超长镜头的生成时间和ID保持问题 [9][29] - 音频处理支持选择推荐音色或克隆自定义音色(仅需5秒音频),上传音频后角色说话内容将基于音频,多角色画面中可选择单个或全部角色发声 [12][14] - 动作描述提示词模板建议包含镜头运动、说话角色情绪、说话状态、具体动作及可选背景事件或其他角色动作,强调清晰、不矛盾、少否定、多具体内容 [16] - 利用图像模型生成和编辑分镜图片,如生成黑色背景的乔布斯图片、苹果风格PPT的拖鞋产品图,并通过图像编辑能力修改背景和添加元素,实现多镜头连贯视频 [19][21][23][25][27] 行业影响与定位 - Omnihuman 1.5将创作从“玄学”变为“工程学”,首帧画面相当于场景设定、音频内容相当于台词剧本、动作提示相当于分镜脚本、多角色控制相当于群戏调度,为具备导演思维的用户提供更精准的工具 [30] - 新模型将于9月30日同步上线手机端,用户更新即梦app即可体验,标志着AI视频工具在移动端的进一步普及 [30]
Figma MCP + GPT-Codex:新的 Vibe Coding 之王
歸藏的AI工具箱· 2025-09-25 18:25
GPT-5 Codex性能表现 - 美学表现直接拉满,仅修改一次即可获得直接给设计稿链接的结果[1] - 即使没有设计稿,单纯使用提示词,其设计风格也与其他模型有显著区别[3] - 根据Qwen 3 MAX播客文章内容生成的网页效果非常出色[3] Figma远程MCP服务升级 - 最大更新是不再需要复杂的添加流程和本地Figma客户端[5] - 传输信息相当多,连设计稿素材图都变成图片链接返回[15] - 需要订阅用户才能使用,中国暗网"闲鱼"可解决订阅问题[8] 工具集成与配置方法 - GPT-5 Codex已有API,常见AI IDE如Cursor等已集成,选择后可直接使用[5] - Cursor配置需在设置的MCP标签页添加特定JSON代码[5][6] - Claude Code配置需在终端输入命令添加MCP,并使用/MCP命令选择登录选项[9][10] 网页生成优化策略 - 生成HTML时最好加上Tailwind CDN和Apache ECharts 5 CDN以节省Token[13] - 复杂页面可让AI分部分完成,先搭建关键组件和页面框架再填充内容[15] - 设计稿质量影响输出,若未使用自动布局或层级关系有误,生成效果会受影响[16] Vibe Coding基建发展前景 - 成熟设计系统设计稿和对应前端组件库配合MCP可极大降低Token消耗[21] - AI接入后效率提高,但对使用者的审美和基本功知识仍有需求[21] - 基建仍有非常大的增长空间[21]
可灵2.5Turbo实测|顶尖AI视频模型,真能打平CG吗?
歸藏的AI工具箱· 2025-09-23 18:37
可灵2.5 Turbo模型性能提升 - 模型提示词理解能力显著增强,尤其擅长处理包含复杂因果和时间关系的指令 [1] - 在超高速战斗和复杂运镜场景下,视频生成稳定性更高 [1] - 图生视频功能风格保持相当稳定,生成视频的风格一致性更强 [1] - 高品质模式5秒视频生成价格从35积分降至25积分,降价幅度约29% [1] 复杂动作与时序理解能力 - 模型能够准确执行复杂提示词序列,如规定运镜方式后连续完成伸手攻击、怪物扑咬等动作 [2][3] - 在执行复杂动作如人物转身时,主体角色完全避免变形或溶解等问题 [3] - 能够根据首帧图片不清晰的怪物形象,脑补并生成后续画面中清晰完整的怪物形象 [3] - 处理服装平滑变换等复杂时序提示词时过渡顺滑,服装变化采用生长动画和蒙版等自然方式 [6][7] 与世界顶级CG渲染作品对比 - 在还原世界渲染大赛Top 5作品时,模型能把握照明弹触发场景变亮的核心亮点,并丰富水晶生长等细节 [10][11] - 对于固定机位的复杂战斗场景,模型能准确分析画面视觉元素,使所有应该运动的物体都在运动,并模仿原始CG运镜 [11][12] - 在人物奔跑、躲避攻击等动作表现上相当自然流畅,甚至能主动添加提示词未要求的"踉跄"步伐以符合物理逻辑 [13][17] - 变狼形生物的动作处理几乎与CG同步,人物和狼的运动及动作切换无误,背景元素运动自然 [14][17] - 在处理龙骑士航拍镜头时,尽管首帧龙身不全导致龙形态变化,但在镜头调度和运动表现上甚至优于原CG [15][17] - 追车场景还原度最高,汽车落地后模型自动添加甩尾漂移动作,镜头跟随表现突出 [16][17] AI视频模型的技术突破意义 - 模型开始理解动作背后的"为什么",表现出对真实物理世界的底层理解,如对"失衡-恢复"逻辑的自发补全 [17] - 内化了"材质-运动"的关联规则,如公主长裙的变化遵循布料重力下垂的渐进式展开而非粗暴形变 [17] - 在形变瞬间的镜头模糊和肌肉膨胀帧率完全同步,显示对"形变需要信息补偿"的隐性认知 [18] - AI模型的思考和创作方式更接近人类,在CG解微分方程时,AI已学会"凭感觉"进行创作 [18]
Notion 3.0 |AI转型最成功的互联网产品是怎么做的?
歸藏的AI工具箱· 2025-09-19 21:26
Notion 3.0 AI核心能力升级 - 公司将产品定位为拥有用户所有上下文的通用Agent产品,用户可在其中使用所有顶尖AI模型完成任务 [2] - 产品支持选择所有当前顶尖模型,例如GPT-5或Claude 4.1 [2] - 核心功能是允许用户添加任意上下文,包括上传文件、选择指定Notion数据库或添加多个数据库 [4] - 用户可通过Notion链接其他软件获取额外上下文,例如Gmail、Github和Linear等海外常用工具 [4] 上下文集成与智能交互 - AI能力可嵌入任何页面,通过右下角图标启动后能直接引用当前数据库或页面的上下文 [7] - 在页面输入斜杠命令可启用新增的AI速记功能,能实时转录和总结会议内容,会议录音和转录文件均保存在同一文件中 [13] - 用户可直接选中特定内容让AI进行处理,例如润色文案或提问 [16] - 在新一行开头按空格键可触发一系列预制AI能力,包括总结、生成待办事项、制作表格和流程图等 [15] 数据库与表格智能管理 - AI不仅能回答问题和辅助写作,还能帮助生成和修改数据库表格格式,例如根据查询结果主动建议创建逾期视图 [9] - AI具备理解复杂图表需求的能力,能准确识别用户指向的特定图表并创建符合意图的可视化结果,如将任务进度分类按月份分组的图表改为更直观的每月任务数量条形图 [10] - 用户可在表格的函数列使用自然语言描述需求,AI会帮助创建复杂的表格函数 [30] 自定义Agent创建与生态 - Notion 3.0主要升级之一是Agent创建功能,用户可通过页面下方图标或AI页面内的头像旁图标进入自定义设置 [17] - 每个Agent的提示词都是一个独立页面,页面内可添加数据库表格甚至@特定用户,极大拓展提示词能力且易于理解 [20] - 用户可为Agent添加图标配饰,这些配饰会直接显示在Notion AI图标上,在保持形象一致性的同时提高区分度 [18] - 公司将Agent提示词页面化后,创作者可将Agent模板发布到Notion市场实现变现,目前市场上已有大量官方和创作者制作的模板 [22] 高级Agent协作与系统集成 - 公司发布了Custom Agent能力,支持多个Agent相互嵌套和协作,并增加了触发器与自动化功能 [25] - 该能力可应用于企业场景,例如在周三周会前自动总结所有人周报内容,创建数据库提取需讨论问题并按重要性排序,同时生成会议讨论框架文档 [25] - Notion官方MCP(模型控制协议)已更新,现在接入MCP的产品(如Cursor)不仅能查询Notion信息,还能主动修改和写入内容 [27] - 该集成允许AI在完成代码编写后将更新日志自动写入Notion对应文档,或将其他AI生成或搜索的结果直接保存至Notion [28] 行业竞争与商业模式 - 公司依托强大的模板分销网络和生态,使高质量提示词能通过Agent模板市场快速变现,激发创作者的推广热情 [32] - 工具软件推广的关键要素(降价、卖模板、卖课)仍适用,如何与产品能力和AI能力结合是行业需要思考的方向 [32] - Custom Agent能力对B端用户尤其重要,能大幅降低自定义功能和服务成本,复杂Agent系统将更具商业价值 [32]