Workflow
歸藏的AI工具箱
icon
搜索文档
难道 Trae 这次真的成了?用新模式做了辅助你健身的超复杂产品
歸藏的AI工具箱· 2025-11-13 07:04
TRAE Solo Coder 产品能力 - 新增 Solo Coder 模式,擅长项目理解、需求迭代、重构和 bugfix 等复杂开发任务,支持从需求分析到上线的全自动内部完成 [1] - 相较于 Solo Builder 模式能力更强大,非常适合复杂代码库维护,支持智能任务规划和多 Agent 协同并发工作 [4] - 采用三栏交互设计:左侧多任务列表显示任务状态,中间为主交互界面,右侧为预览窗口(浏览器、代码变更页面、IDE编辑器)[5] - 支持多 Agent 并发能力,可创建多个 Agent 窗口同时处理不同任务,如优化交互设计、分析项目优化点、迭代写代码等 [7][8] - 创建 Agent 时只需描述需求即可自动生成表单和智能体图标,支持 Plan 模式在执行前进行任务规划并清晰展示进度 [11][12] 上下文管理与问题解决 - 具备上下文压缩功能,可在上下文达到 70% 时自动总结和压缩,或主动触发,避免因上下文超限导致错误修改 [14] - 展示强大的自主问题解决能力,在 React 项目开发中多次遇到报错均可自行修复,无需人工干预 [20][26] - 能够分析部署问题(如 Vercel 平台的 404 错误和日志),自主定位并修复问题,与开发者发现的问题基本一致 [29] - 在复杂 React 项目中表现出优秀的规划能力和多次修改的稳定性,无需详细指令即可完成表单设计、等待页面等细节 [31][32] 实际应用案例:健身分析系统 - 使用 Solo Coder 模式成功开发健身数据分析产品,用户输入基本信息、上传 CSV 训练记录(含动作、重量/kg、次数、组数等)并填写 Gemini API 后,AI 可生成详细分析报告 [3][16][27] - 报告包含三部分:整体训练水平与评分、训练科学建议、每个动作的详细数据(要点、重要性、进度图表)[3][27] - 开发过程中 AI 自主设定了详细报告格式,包括教育性内容、数据层次展示、动作卡片和生理学解释,并完成从简单原型到完整产品(含前端 UI 修改、图表优化、数据结构调整)的迭代 [22][23][25] - 产品最终实现功能完整,包括用户信息填写、CSV 上传、API 调用、AI 分析等待界面和结果展示 [27] 市场推广与用户体验 - 产品获得健身教练高度评价,提供免费体验链接供用户尝试 [3][4] - 在 11 月 12 日至 15 日期间举办限时免费体验活动,推荐用户自行测试 Solo 模式 [33] - 鼓励用户分享给朋友,以扩大产品影响力 [35]
AI 也得过双十一|藏师傅版“88VIP”,超级福利放送
歸藏的AI工具箱· 2025-11-10 10:51
合作背景与模式 - 合作模式灵感来源于海外知名Newsletter Lenny's Newsletter的成功案例,该案例通过订阅提供数十个AI产品的年度会员[2] - 国内AI产品在模型、图像、视频、Agent和编码等领域实现爆发,但推广和变现方式相对单一,促成了此次合作[4] - 本次合作整合了超过30个国内知名AI产品,通过AIGC周刊订阅提供高额折扣和免费会员抽奖,旨在探索新的用户共赢推广模式[4][7][85] AIGC周刊订阅核心价值 - 周刊已稳定运营三年,拥有约1500名订阅用户,内容涵盖AI领域主要发布、核心从业者动态及各个AI领域的优质内容[5] - 订阅者在11月17日前购买可获得一年期周刊、往期存档以及30多个AI产品的优惠券和超过1000份免费会员抽奖资格[5][8] - 平台提供合伙人计划,用户通过推荐链接成功订阅可获得订阅价格20%的收益,推荐三位朋友可基本实现免费订阅[76] 参与合作的AI产品及优惠详情 - **MiniMax Agent**:提供海外版和国内版各10个5000积分抽奖,国内版由M2模型驱动,价格仅为Claude Sonnet的8%,推理速度提升2倍[10] - **Monica**:Unlimited年度订阅提供5折优惠,原价199美元/年折后16.6美元/月,包含无限次访问普通模型和高级模型[14][15] - **智谱GLM Coding**:在首次购买5折基础上再提供8折优惠,并抽奖200个GLM Coding Max套餐[17] - **可灵**:视频生成产品提供双十一活动,年卡5折且灵感值最高加赠40%,同时抽奖20个500灵感值[32] - **海螺AI**:年度会员限时4折,首次订阅所有等级会员享受95折,抽奖5个基础会员[39][40] - **沉浸式翻译**:年费会员7折,并抽奖20个月度会员[60] - **Xaicreator**:Basic会员提供3折优惠,原价24.9美元/月折后299美元/年,并抽奖5个Basic年包和3个PRO年包[62][63] 其他合作产品亮点 - **YouWare**:年度会员8折,抽奖20个单月Pro会员和100个5年度会员折扣优惠[23][24] - **Podwise**:提供6折永续优惠,续费同样享受折扣,标准版原价9.9美元/月,专业版19.9美元/月[52] - **潮汐**:订阅会员65折,并抽奖5个年费会员[71] - **Flomo**:PRO版年费99元,提供AI语音输入、相关笔记关联和AI洞察等功能[66][67]
藏师傅 Kimi K2 Thinking 首测!教你用 Kimi 编程全家桶
歸藏的AI工具箱· 2025-11-07 00:59
Kimi-K2-Thinking模型核心升级 - 模型进行Agent化升级,具备原生「边思考、边用工具」能力,可自主持续多轮推理与调用,最高约300轮 [4] - 推理能力达到SOTA水平,HLE(44.9)和IMO(76.8)均取得当前最高分,复杂检索与长程规划显著增强 [4] - 编程能力获得提升,Agentic Coding更稳定,前端(HTML/React/组件化)与多语言工程基准表现提升 [4] - 通用基础能力升级,创意写作更有韵律与深度,学术研究场景下分析更严谨,长篇任务中能保持逻辑与风格稳定 [4] - 效率显著提升,原生支持INT4(QAT+MoE weight‑only),长解码下性能保持,生成速度约提升2倍 [4] 产品生态与商业化 - 公司推出AI编程CLI工具Kimi CLI,安装和使用方式与Claude Code对齐,方便开发者使用K2-Thinking模型 [4][11] - 推出名为KFC(Kimi For Coding)的编码API套餐,199元会员每周提供7168次调用,满足开发需求 [6] - 产品设计存在优化点,例如获取API Key的入口较为隐蔽,建议后续改进用户体验 [9] 模型性能测试结果 - 在连续多轮编辑测试中,模型从基础Todo应用开始,经过9轮复杂功能添加(包括分类、优先级、截止日期、搜索筛选、数据导出、看板视图、拖拽功能、深色模式、移动端适配),均能一次性成功处理,并在第三次修改导致的UI问题于第四次修复 [17][18][20][21] - 在模仿Linear设计风格的测试中,模型成功调用搜索工具调研设计特点,并实现了包括磁吸按钮动效、鼠标Hover光效等核心复杂动效,而Claude 4.5在此测试中未能完成磁吸按钮和渐变效果 [32][33][34][35][37] - 在处理复杂业务逻辑的流程图编辑器测试中,模型通过引入模式切换按钮巧妙解决了拖动和连线的潜在冲突,连线功能正常且路径合理,逻辑判断节点会自动添加“是/否”标注 [38][39][40] - 在加密货币行情看板测试中,模型正确调用CoinGecko API获取数据,实现了排序、搜索、K线图展示及交互动画等完整功能 [41][42][43] - 在性能优化测试中,模型不仅能找出代码中的性能问题并提出修复方案,还额外增加了性能监控组件,以数据展示优化效果 [44][45][46][49][51] 公司战略与行业定位 - 公司战略聚焦于解决行业痛点:通过Kimi全家桶解决API经济的“最后一公里”问题,将模型能力直接封装为生产力 [55] - 产品方案应对了开源模型的“集成负担”问题,为开发者提供“拎包入住”式的完整生产环境,强调工程完备性 [55] - 公司通过“模型+工具”一体化策略规避纯工具产品对第三方模型的“依赖风险”,保证用户体验的一致性和长期可用性 [55] - 公司的核心优势在于模型能力(K2-Thinking的300轮工具调用、搜索增强推理)、工程执行力(快速迭代全家桶)以及对开发者需求的深刻理解 [54] - 公司战略被评价为清醒、务实、有远见,其核心在于将AI编程从技术探索转变为可依赖的生产工具,致力于提供“交付确定性”而非单纯的“选择自由” [55][56][58]
Gemini 的 PPT 生成:使用技巧及模板提示词
歸藏的AI工具箱· 2025-11-05 14:02
Gemini APP PPT生成功能概述 - Gemini APP新上线PPT生成功能,通过前端代码实现,支持精细的提示词控制,包括PPT风格细节,生成质量优于Anthropic的产品 [1] - 功能可与Gemini及谷歌其他产品打通,例如在Google幻灯片中编辑细节、导出PPT格式,或将深度研究结果转化为PPT [1] 功能使用流程 - 在输入框开启Canvas模式后,直接输入主题即可生成PPT,Gemini自带搜索功能,可自动填充内容如OpenAI算力投资信息 [4] - 生成结果可下载为PDF格式,并通过"导出到谷歌幻灯片"转换为可编辑的PPT文件,支持AI生成图片插入 [6][8] - 用户可在谷歌幻灯片中导出为pptx格式,便于在Office中编辑 [10] - 结合Gemini深度研究能力生成结果后需手动复制操作转换为PPT,目前搜索结果快捷生成仅支持网页格式 [12] PPT风格提示词示例 - Bento Grid风格:要求苹果发布会PPT的Bento Grid视觉设计,背景色为F8F6F5,卡片背景为白色,文字颜色为010101,高亮按钮使用渐变色F69AAC-DF95E3-7DBDE9,强调超大字体突出核心要点,中英文混用排版 [14] - 极简主义中性色风格:采用极简布局和中性色调,通过高对比度大号字体和专业视觉内容叙事,大量使用留白,字体为核心元素,基础色调为黑色文字加浅色背景 [16][17] - 荧光绿瑞士国际主义设计风格:严格遵循栅格系统,大量留白,清晰视觉层次,非对称平衡,使用现代无衬线字体,主色调为黑白灰,高饱和度荧光绿作为强调色,搭配芥末黄辅助色 [23][24][25][26][27] - 极简黑白风格:严格单色系黑白灰基调,高饱和度亮绿色点缀,单一无衬线字体,通过字重大小区分层级,强调整齐和留白,黑白背景交替创造视觉节奏 [30][31][32][33][34] 功能局限与优化建议 - 当前PPT生成页数较为固定,基本控制在13页,未来需通过提示词控制页数 [38] - 建议将生成结果视为PPT模板,下载后编辑填充自定义内容,以提升可控性和美观度 [38]
承包你的品牌营销物料|谷歌再发重磅 AI 设计产品
歸藏的AI工具箱· 2025-10-29 15:59
产品定位与发布 - 谷歌实验室发布新AI设计产品Pomelli,专注于帮助企业低成本生成符合品牌调性的营销物料[4] - 用户只需提供官网链接,产品即可自动提取品牌设计元素如主题色、产品能力和定位,并根据输入的活动内容生成海报等营销素材[4] - 该产品目前在美国、加拿大、澳大利亚和新西兰推出[4] 核心功能:品牌DNA提取 - 产品通过输入官网地址分析品牌信息,包括配色、字体、产品能力等,并创建详细的品牌DNA卡片[7][9][11] - 品牌DNA卡片包含产品Logo、品牌字体、主要配色、图片素材、产品能力及商业定位关键词[11] - 若官网信息不足(如仅有一个输入框的AI产品),则产品难以有效工作,且提取的信息可手动修改[13] 创意生成与排版 - 基于品牌DNA,产品可生成多个用于预览的设计稿,用户输入营销活动内容后会自动优化文案并规划排版[15][17] - 生成过程提供三个广告内容创意供用户选择,选定后会生成四种不同排版风格的图片选项[17][19][20] - 排版风格包括专业背景、科技感、人文风格和纯文字排版等不同类型[20] 细节微调与定制化 - 用户可选择喜欢的图片进行微调,主要调整部分包括背景图片、标题、内容文案和号召按钮[23] - 背景图片来源于官网爬取的素材或由Nano Banana生成,文案内容可通过魔法棒图标重新生成,字体可调整[23] - 号召按钮默认不生成,需手动点击生成,其颜色与网站按钮颜色保持一致,确保品牌一致性[25] - 提供"Fix Layout"功能以修复文案修改后的对齐问题,最终可下载生成的海报和营销物料[27] 产品优势与当前局限 - 产品交互和点子优秀,适用于临时救急和批量生产广告内容,操作成本低且自定义程度高[7][30] - 局限性包括非常依赖官网信息和内容,生成的图片美学风格和排版较为单调[31][32] - 背景图片素材控制较弱,目前完全不支持控制图像比例,对于需要多种比例图片的广告投放平台(如Meta)不友好[32] - 技术方案基于前端代码驱动,好处是可精准控制品牌要求高的内容(如主题色和字体),坏处是效果较割裂且无法使用更丰富的效果[32]
AI 音乐都发展成这样了?藏师教你一键生成爆款 AI 音乐
歸藏的AI工具箱· 2025-10-16 21:19
AI音乐生成技术演进 - Suno V5模型在音乐生成质量上实现显著突破,音频清晰度极高,用户难以分辨AI生成内容与真人演唱的区别[1] - 该模型支持多维度的音乐元素控制,包括风格提示词、自定义歌词、分段落提示词以及音频上传修改功能,超越了早期版本仅能处理简单提示词的限制[5] - 新增Studio专业模式提供分音轨生成和控制能力,类似专业音频软件的操作逻辑[5] 市场应用与传播热度 - AI生成音乐内容在短视频平台呈现爆发式传播,单个作品获得数十万点赞成为普遍现象[3] - 技术应用范围扩展至热门娱乐形式,例如近期流行的《技能五子棋》也采用AI技术生成背景音乐[3] - 模型支持对经典歌曲进行多风格重混音,例如使用陶喆风格演绎《搁浅》或贾斯丁·比伯风格演绎《兰亭序》[6] 技术操作流程设计 - 工作流分为垫音生成(基于原曲调重新混音)和纯提示词生成(完全创新曲调)两种核心模式[6] - 操作界面包含歌词标注系统(方括号内提示词控制演唱风格)、全局风格设置、人声性别选择等专业参数[7] - 关键参数包括怪异值(控制音乐偏离主流程度)和风格遵循度(控制模型自由发挥空间)[8] 提示词工程体系 - 开发出结构化提示词生成模板,通过大型语言模型自动生成符合Suno要求的专业提示词[9] - 全局风格提示词需包含四大要素:核心曲风、标志性乐器编配、音色与演唱技巧、制作与节奏特点[10][11] - 分段指令系统要求智能划分歌词结构(主歌、副歌、桥段等),并为每个段落设计符合歌曲发展逻辑的编曲指令[12] 版权规避与商业化应用 - 针对版权限制提供两种解决方案:用户自主翻唱录制或使用翻唱音频规避版权检测[20] - Audio Influence参数允许控制生成声音与原始音频的相似度,低设置值可避免音色复刻风险[20] - 技术特性使Suno具备替代传统调音师的潜力,特别适用于内容创作者进行音乐后期处理[20] 行业影响评估 - AI音乐技术从纯生成逻辑转向编辑创作逻辑,大幅提升自由度和准确性[21] - 该技术可能打破音乐行业现有格局,使经典音乐作品能够被低成本、高质量地重新混音创作[21] - 与传统音乐平台低质量Remix内容相比,AI生成音乐在艺术质量上具备明显优势[23]
藏师傅想解决 Claude Code 最恶心的问题
歸藏的AI工具箱· 2025-10-14 21:12
项目背景与痛点 - 开发者在配置Claude Code时面临环境变量管理难题,需频繁切换不同模型(如Anthropic、智谱、Kimi、Qwen、Codex等)的代理API,导致操作复杂且耗时[1] - 更换原生Claude 4.5代理API时需清理环境变量,非命令行熟练用户操作困难,每次更换需花费较长时间并依赖AI辅助[1] 项目解决方案 - 开源项目ai-claude-start通过临时注入环境变量实现多模型API配置管理,启动时允许用户选择模型和服务商,避免污染原始Claude Code设置[2][4] - 支持快速启动多个不同模型驱动的Claude Code进程,提升使用灵活性[2] 安装与配置流程 - 支持npm和npx两种安装方式,需预先安装Node.js环境[5] - 通过命令`ai-claude-start setup`启动初始配置,核心配置项包括模型API地址、API Key及模型名称[7][12] - 内置Anthropic、智谱、Kimi三家服务商的预置API地址,用户仅需填写模型名称和API Key即可快速配置[9] - 支持Custom自定义模式,可手动输入配置名称、API地址、模型名称和API Key[11] - 配置完成后输入`Cluade-Start`命令即可选择模型启动,简化小白用户操作流程[14] 技术实现与开发过程 - 项目需求通过GPT-5讨论生成,由Claude Sonnet 4.5完成代码编写,开发者仅负责测试和需求描述[16][19] - 项目要求包含密钥安全存储(优先keytar)、子命令管理(setup/list/default/delete/doctor)、运行时环境变量清理等特性[17] - 开发过程中通过AI自动测试修复简单问题,最终由Claude Code指导完成npm发布流程[19][20] 项目资源与支持 - 提供详细中文README文档,包含自定义命令说明和完整项目结构[15] - 项目开源地址为https://github.com/op7418/ai-claude-start,鼓励用户提交Pull Request参与改进[22]
太猛了!终于有人来管管 AI 视频的语音和表演了:GAGA AI 实测
歸藏的AI工具箱· 2025-10-10 18:03
模型核心能力 - 专注于人物对话表演,在人物细微表演对话方面表现最强,表演能力甚至超过Sora2 [1] - 模型具备泛化智能,能自主推导并生成未在提示词中明确指定的细微表情和动作,如叹气、点头、挑眉等 [2][5] - 支持声音和画面同步生成,即使侧面视角下唇形同步也非常到位,语音音效俱全 [4] - 在复杂情绪表现上极为出色,能精准演绎羞耻、自责、绝望、恳求等细微情绪变化及语音配合 [9][10] 技术规格与性能 - 支持图生视频,单次生成最长10秒,分辨率为720P但细节丰富 [4] - 支持双人场景演绎,能很好理解提示词中不同人物的语音和互动,但超过双人表现会下降 [4][11][16] - 支持多语言输出,包括英语、日语、西班牙语,并可实现多语言混合输出,各语言表现标准如母语者 [6][7][8] - 目前仅支持16:9横屏比例,后续将支持9:16竖屏比例 [16] 应用场景与提示词使用 - 提示词编写可先描述情绪变化,再说明语气和内容,停顿可用波折号或省略号表达 [16] - 在复杂场景(如雨天、车内隔窗对话)中能自动添加环境音(雨声)和应景背景音乐(钢琴BGM),增强氛围渲染 [10] - 需避免复杂精细的手部运动提示词,手部动作可能存在瑕疵;图生时也应避免过多肢体或全身露出 [6][16] - 对于短对话(如十字以内)可选择5秒生成时长,长对话可选择10秒 [16] 行业发展趋势 - AI视频模型发展进入新阶段,重点从复杂动态、物理表现转向情绪表达、表演以及音效语音的端到端多模态一体化输出 [16] - 模型开始内化世界知识和智能,具备视觉推理、分镜脚本编排和剪辑能力,这部分能力原被认为需由Agent完成 [16][17]
Sora 2 中国首测?Open AI 这次真成了!
歸藏的AI工具箱· 2025-10-01 04:32
模型核心能力 - 该模型被描述为当前世界上最强的视频生成模型,具备卓越的人物ID保持能力,仅需用户录制三段视频(包括说三个数字和转转头)即可克隆其人脸和声音 [1] - 模型具备世界知识,能够理解复杂提示词并生成符合逻辑的视频内容,例如在雨天场景中人物未打伞时脸上会有雨水效果 [4][8] - 视频生成具备自动分镜和镜头切换能力,能够根据对话者自动调整镜头位置,展现出成熟的视频编排和故事逻辑创作能力 [8][11] - 支持多模态输入,用户可上传图片(如马、汽车、香水瓶)并结合简单提示词生成视频,实现人物、场景和物体ID的一致性保持 [6][7][9] 技术性能表现 - 语音克隆效率极高,仅需不到2秒的语音样本(三个数字)即可完成音色克隆,并支持中文、日语、英语等多种语言 [1] - 在复杂提示词遵循方面表现优异,能够精确匹配动作细节(如篮球投掷、教练喊话)和场景转换(从白天到黄昏的长镜头),音效同步精准 [13][14] - 支持多人物合拍功能,用户可在生成视频时@其他用户,实现人物间的互动对话,且对话内容具有逻辑性和深度 [1][15][16] 产品形态与市场定位 - 公司为该模型推出了一个社交APP,其形态类似于AI版的抖音,用户可邀请朋友合拍AI视频,且视频生成服务免费 [1] - 产品设计了“Ramix”功能,用户可通过简单提示词(如“在城堡”)对现有视频进行二次创作,改变场景和装扮同时保持人物面部一致性 [5] - 该模型被定位为真正面向C端用户的视频生成工具,集成了声音、音效、运镜和分镜规划,大幅降低了高质量视频内容的创作门槛 [17]
告别抽卡!全能&高度可控|藏师傅教你用即梦数字人 1.5
歸藏的AI工具箱· 2025-09-29 18:10
产品核心升级 - 数字人Omnihuman 1.5版本在Web端上线,相较于1.0版本,其控制能力大幅提升,用户可定义视频中人物的表演和运动方式,解决了以往AI视频在人物表现方面的难点 [1] - 新增动作描述提示词输入功能,极大拓展数字人的使用场景,可控制画面内容、人物、情绪、音色以及运动和运镜方式,使其成为自定义程度极高的工具 [2] - 模型升级使数字人不再死板,可通过动作控制让镜头和人物动起来,包括主角和背景人物,实现如先抬头调整角度再开始说话,同时镜头旋转、背景人物行走等复杂动作,这是纯唇形同步模型无法做到的 [4] 技术能力突破 - 模型在多风格化及非人形生物的唇形同步上效果自然,平面插画的眼睛、嘴部和面部运动生动,并可搭配抬手、走动等动作,镜头平移时新画面风格与原有部分保持一致 [5] - 对表情和表演的响应显著提升,能够精准遵循复杂提示词,如从平静到讽刺再到温和的16秒长视频中,稳定保持人像ID不变并实现精准的提示词遵循,这在市场上较为罕见 [6] - 新增控制同一场景多人对话和表现的功能,可指定发声角色,实现两人对唱、多人对话剧情,搭配图像编辑能力调整镜头重点,超越固定镜头的表现限制 [7] - 解决了以往模型夸张嘴型问题,模型会根据声音内容和提示词调整嘴部动作,表现自然度大幅提升 [8] 操作流程与教程 - 制作视频需准备三部分内容:首帧图片、音频、对应的动作和情绪提示词,建议使用表格规划每个分镜的这三个部分,通过切分镜头和音频使画面更生动,避免超长镜头的生成时间和ID保持问题 [9][29] - 音频处理支持选择推荐音色或克隆自定义音色(仅需5秒音频),上传音频后角色说话内容将基于音频,多角色画面中可选择单个或全部角色发声 [12][14] - 动作描述提示词模板建议包含镜头运动、说话角色情绪、说话状态、具体动作及可选背景事件或其他角色动作,强调清晰、不矛盾、少否定、多具体内容 [16] - 利用图像模型生成和编辑分镜图片,如生成黑色背景的乔布斯图片、苹果风格PPT的拖鞋产品图,并通过图像编辑能力修改背景和添加元素,实现多镜头连贯视频 [19][21][23][25][27] 行业影响与定位 - Omnihuman 1.5将创作从“玄学”变为“工程学”,首帧画面相当于场景设定、音频内容相当于台词剧本、动作提示相当于分镜脚本、多角色控制相当于群戏调度,为具备导演思维的用户提供更精准的工具 [30] - 新模型将于9月30日同步上线手机端,用户更新即梦app即可体验,标志着AI视频工具在移动端的进一步普及 [30]