歸藏的AI工具箱

搜索文档
Lovart 国内版本上线!藏师傅教提示词大全及教学
歸藏的AI工具箱· 2025-07-03 17:53
星流Agent产品介绍 - 国内版星流Agent正式上线 功能与海外版一致 但对中文内容生产更友好 [3] - 新增FLUX Koontext模型提升一致性 集成可直接生成语音音效的视频模型 [3] - 定价策略具有竞争力 首月算力五折 无需邀请码 [3] - 提供三次免费试用机会 标准版首月会员价低至9元 [63] 核心功能展示 创意设计 - 生成Q版国风恐怖塔罗牌 需结合戏曲场景与塔罗牌意义 保持画风一致性 [4][5][6] - 衍生MBTI人格卡片设计 采用极简插画风格 自动生成网页排版展示 [18][19][22] - 品牌VI全案设计能力 从logo到物料延展可完整输出 超越初级设计师水平 [27][32][37][38] 电商应用 - FLUX Kontext模型优化产品摄影 保持商品细节同时提升画面质感 [44][45] - 批量生成多场景电商展示图 支持石块/迷迭香等高级布景 [47][48][49] 内容生产 - 表情包批量生成 可高清化并转换表现形式 保留原版神韵 [51][52][54] - UI图标自动生成 支持Airbnb风格3D写实图标 透明背景处理 [56][57] - 视频制作集成音效/语音/唇形同步 可套用爆款公式生成伪纪实内容 [59][60][62] 技术优势 - 工作流程专业化 包含需求识别-概念定位-视觉策略全链条 [10] - 交互组件快速迭代 支持非文字指令选择提升操作效率 [35] - 垂类Agent构建壁垒在于行业知识与AI技术的深度结合 [64] 典型应用场景 - 戏曲文化创意产品开发 [8][19] - 新消费品牌视觉系统搭建 [27][32] - 电商商品展示优化 [44][47] - 社交媒体内容批量生产 [51][59]
普通人用Gemini CLI提效的 1 万种方法!藏师傅保姆级教程
歸藏的AI工具箱· 2025-07-02 17:08
产品定位 - 谷歌推出完全免费的命令行AI工具Gemini CLI,对标近期火爆的Claude Code [1] - 与Cursor等IDE工具的核心区别在于无界面、纯命令行操作,但支持自动执行任务和处理本地文件 [3][4] - 内置谷歌搜索/文件读写等工具,输入/tools可查看全部支持功能 [4] - 支持MCP工具扩展上下文能力 [6] 技术特性 - 多模态能力支持图片内容分析/批量重命名/打标 [38][39] - 可调用本地软件实现视频剪辑(ffmpeg)/文档转换(Pandoc)/图片处理(ImageMagick)等专业功能 [49][63][67] - 通过Homebrew一键安装第三方工具如yt-dlp实现视频下载 [60][61] - 支持将复杂操作封装成脚本实现一键执行,如deep_work.sh脚本可自动开关软件/切换系统模式 [43] 应用场景 - 知识管理:自动分析Obsidian笔记库并建立反向链接/生成索引文档 [34][35][36] - 内容创作:改写文章/生成博客及推特版本/自动制作PPT [31][32][33][46] - 多媒体处理:视频转GIF/添加水印/配乐/序列帧转换 [53][54][57][59] - 文件批处理:图片重命名/尺寸调整/拼接/格式转换 [39][65][66] 用户体验 - 非技术人员可通过自然语言交互完成专业操作,无需编程知识 [8][9] - 采用NPX安装方式降低使用门槛,仅需终端输入npx命令即可运行 [18][19] - 推荐配合Bob翻译软件解决英文界面问题 [24] - 操作限制在指定文件夹内执行避免系统风险 [15][16]
实测Readdy:美观度拉满的AI编程工具,出海4个月交出亮眼成绩单
歸藏的AI工具箱· 2025-07-01 19:42
产品核心功能 - Readdy是一款AI编程工具,专注于生成美观且功能完整的网页,通过简单的提示词和交互操作即可实现复杂功能 [2][3] - 产品支持"继续生成"功能,用户可通过点击按钮快速补全网页功能和下级页面,大幅降低开发成本 [8][11] - 生成的网页设计一致性极强,排版、间距和视觉元素处理优于Claude和Gemini等主流模型 [14] 核心技术优势 - 支持一键导出Figma设计稿,转换质量远超Html To Design,所有内容均为自动布局便于修改 [16][17] - 内置数据库功能,用户可轻松实现数据交互,使产品脱离"玩具"范畴进入实用阶段 [25] - 支持自定义域名绑定,解决临时域名问题,提升产品专业性 [9][25] 行业应用案例 - 成功生成白噪音日签网站,包含背景图片处理、名人名言刷新和Spotify播放列表嵌入等完整功能 [4][5][6] - 构建商品出入库管理系统,包含商品信息录入、分类管理、库存查询等B端SAAS完整功能 [19][20] - 通过"Selected Area"功能实现页面跳转,简化复杂系统开发流程 [24] 市场表现 - 开发团队为国内知名设计工具MasterGo团队,在产品上线4个月内实现近500万美元ARR [26] - 产品在页面美观度和用户体验方面显著优于Lovable、V0等同类竞品 [26] 用户体验创新 - 首创"哪里没有点哪里"的交互设计,通过点击即可补全功能,无需复杂操作 [11] - 自动处理网页截图生成功能,智能排除干扰元素如Spotify播放弹窗 [8] - 表单提交按钮与数据库自动关联,使普通用户也能开发复杂增删改查功能 [9][25]
上下文就是一切!行业热议话题:提示工程是否应该改名
歸藏的AI工具箱· 2025-06-26 19:40
核心观点 - 上下文工程是比提示工程更准确描述LLM应用核心技能的术语 强调为LLM提供完成任务所需的所有上下文 [1] - 工业级LLM应用中 上下文工程是精心填充上下文窗口的艺术与科学 需包含任务描述 少样本 RAG 多模态数据 工具 状态历史等多维度信息 [1] - 上下文工程师需具备对LLM"心理"的引导性直觉 通过持续优化提示词和上下文内容来建立模型边界认知 [2] 行业动态 - Shopify CEO和Andrej Karpathy推动"上下文工程"术语替代"提示工程" 因其更准确反映岗位核心技能 [1] - Cognition和Anthropic在AI Agent构建中均强调上下文管理是关键 Anthropic指出数百轮对话需精细策略 [3] 重要性分析 - 不充分上下文共享导致子Agent工作不一致或冲突假设 过长上下文限制LLM回忆能力 GPT-4o多轮对话准确率仅50% [4] - 语音AI Agent中上下文膨胀增加延迟(目标中位延迟800ms) 函数调用准确性在多轮对话中显著下降 [4] 优化策略框架 - Lance Martin定义上下文工程为伞状学科 涵盖指令上下文(提示/记忆) 知识上下文(RAG) 操作上下文(工具流) [5] - 提出三大策略:压缩(保留高价值Token) 持久化(存储检索系统) 隔离(划分上下文边界) [5] 压缩技术实践 - Claude Code在上下文窗口使用超95%时自动压缩 Anthropic多Agent研究生成工作阶段摘要 [7] - Cognition的Devin使用专用微调模型进行上下文压缩 显示技术门槛较高 [7] 持久化系统构建 - 存储方式:Claude Code用CLAUDE.md文件 Cursor/Windsurf用规则文件 Letta/Mem0用嵌入式文档 Zep/Neo4J用知识图谱 [10] - 保存策略:Claude Code用户手动更新 Reflexion论文提出Agent轮次后反思生成 ChatGPT等产品实现自动记忆生成 [11][12] - 检索机制:小规模直接载入(如CLAUDE.md) 大规模需选择性检索(向量搜索/图检索) GPT-4o曾因检索错误注入非意图位置信息 [14][15] 隔离管理方案 - 上下文模式:用Pydantic模型替代臃肿消息列表 隔离高Token内容并按需获取 深度研究Agent将messages与sections分离 [18][20] - 多Agent架构:OpenAI Swarm库实现关注点分离 Anthropic研究显示隔离上下文多Agent性能比单Agent高90.2% 但Token消耗增15倍 [21] - 环境隔离:HuggingFace的CodeAgent在沙箱执行代码 隔离生成对象(如图片)但保留变量引用能力 [22] 行业实践经验 - 工具先行原则:建立Token追踪机制作为基础 Anthropic建议"像Agent一样思考"明确状态模式 [23] - 可并行化任务优先采用多Agent Anthropic案例显示子Agent无需严格协调时效率显著提升 [26] 发展趋势 - 上下文管理是AI Agent核心 需平衡性能(如GPT-4o 50%准确率) 成本(15倍Token消耗) 准确性(函数调用) [24] - LLM本质是无状态函数 最佳输出依赖最佳输入设计 清晰表达需求与语境构建决定响应质量 [25]
录音笔的终结者,还是AI时代的又一个“美丽废物”?深度体验出门问问TicNote
歸藏的AI工具箱· 2025-06-25 19:56
产品硬件设计 - 产品采用超薄卡片设计,重量仅29克(iPhone 16 Pro的七分之一),厚度仅3毫米(iPhone 16 Pro的三分之一)[1] - 配备皮质磁吸卡套,可与iPhone及小米等支持磁吸的设备牢固吸附,测试中甩动不会脱落[4] - 硬件包含模式切换按钮,支持扬声器模式(环境录音)和听筒模式(通话录音),切换时有图标显示状态[7] 核心功能特性 - 支持连续工作20小时,待机时间超过20天,本地存储确保原始音频不丢失[9] - 录音操作支持硬件按钮长按启动(震动反馈)或APP控制,状态实时同步显示[10] - 语音转录支持120+语种及方言,具备多人对话发言人区分能力[10] - 提供双录音模式:扬声器模式适用于会议/讲座(降噪效果显著),听筒模式实现无感知通话录音(解决iOS系统限制)[7] AI软件能力 - 提供多场景模板(教育/采访/会议等),自动生成结构化总结框架并区分说话者[11][13] - 自动生成思维导图、"顿悟时刻"关键洞察,并支持敏感信息过滤后的可视化思考呈现[17] - 深度研究功能可自动补全录音内容的背景信息,拓展讨论上下文[19] - 支持生成AI对话播客,实现脱敏内容分享,含定时推送指定行业信息的功能[24][26] 用户场景定位 - 核心目标用户:职场高管/项目经理(会议场景)、内容创作者/记者(采访素材整理)、AI工具效率爱好者[31] - 延伸用户群体:学生/科研人员(课堂复盘)、留学生/跨境商务人士(语言纪要)[32] - 产品定位为"大脑延伸工具",专注于解放用户的记录整理负担以提升思考效率[33] 商业化信息 - 定价策略:基础版999元(含3个月AI会员)、高级版1499元(含12个月AI会员)[30] - 配套Web端支持全功能操作(ticnote.cn),形成硬件+软件+AI Agent闭环[28][35] - 公司计划扩展AI硬件产品线(手表/耳机/运动设备等),反映国内AI硬件市场热度提升[34]
模型即 Agent 的含金量:Kimi深度研究功能详评
歸藏的AI工具箱· 2025-06-24 12:17
Kimi深度研究能力分析 - 核心观点:Kimi深度研究在内容丰富度、准确性和逻辑严谨性上表现突出,基于端到端自主强化学习技术训练的Agent模型,具备自主形成分析框架的能力[2][35] - 技术特点:采用自主训练的强化学习模型,不同于常见提示词工程方案,会开源预训练模型和强化学习后的模型[2] - 测试表现:在HLE和红杉Agent测试中取得优异成绩[2] - 信息处理:具备自主甄别能力,规划数十个搜索关键词并阅读上百个网页筛选可信内容[4] - 报告规模:生成的研究报告通常超过1万字,最高达2.2万字[4] - 防幻觉措施:采用文中内嵌、高亮跳转、原文溯源等方式辅助用户判断[4] Labubu案例分析 - 研究逻辑:先整体搜索得出初步结论,再分模块深入,包括粉丝经济、爆火原因、海外传播路径、发展历程等[10][11] - 报告结构:1.9万字报告完整覆盖IP设计、产品演变、运营策略、粉丝经济等维度[11] - 内容组织:按逻辑链条排列信息,先介绍设计理念和产品迭代,再分析运营策略[14] - 关键数据:设计师龙家升采用北欧暗黑美学风格[17],门店配件销售占比15%-20%,改娃师月收入达五位数,Vans联名款溢价24倍[22] - 爆火原因:设计师魅力、二手市场炒作、泡泡玛特品牌势能共同促成[26][29] 小米发布会分析 - 研究能力:处理复杂数据检索和预测分析,生成1.7万字报告[39][40] - 产品对比:详细对比小米YU7与特斯拉Model Y,包括尺寸(4999×1996×1600mm vs 4750×1921×1624mm)、轴距(3000mm vs 2890mm)、续航(835km vs 554-688km)等关键参数[48][49] - 销量预测:YU7三档预测分别为15万(保守)、25万(基准)、35万(激进)辆,考虑产能爬坡、定价策略(约25万元起)、市场竞争等因素[53][54][55] - 供应链分析:列出10家受益上市公司,包括华阳集团(智能座舱供应商,股价31.99元)、拓普集团(空气悬挂供应商,股价43.84元)等[61] 可视化呈现 - 网页设计:生成详细可视化网页,内容与报告同步,左侧带导航大纲[70] - 交互功能:图表可自由拖动缩放,解决预览问题[71] - 品牌适配:根据内容自动匹配品牌主题色(如小米橙色)[73] - 信息展示:采用高亮色和背景色直观呈现竞品优劣势[75] - 素材选择:精准匹配内容的相关图片和视频[75]
所有爆款 AI 视频一键生成?Hailuo Video Agent 体验
歸藏的AI工具箱· 2025-06-20 16:45
视频生成Agent行业动态 - MiniMax率先推出分阶段打造的Hailuo Video Agent 标志着视频生成Agent进入实用化阶段 [3] - 行业技术路径呈现从"钢铁侠战甲"(增强工具)向"钢铁侠机器人"(完全自主Agent)的渐进式发展特征 [4] - 视频生成模型成本上升与提示词遵循效果改善共同推动成熟Agent产品加速落地 [2] Hailuo Video Agent产品特性 技术架构 - 采用三阶段发展路径:专业模板→可打断编辑→端到端自动化 [8] - 集成多模态能力 可同步处理音乐、语音、音效、图片包装、字幕等视频制作全要素 [17] - 内置Agent编辑工具 已积累覆盖主流场景的模板库 [18] 用户体验 - 操作门槛极低 仅需上传图片或简单文字描述即可生成高质量视频 [5] - 支持ID保持功能 实现原图与生成视频间的顺滑过渡 [7] - 提供自定义GUI界面 配备自主性调节滑块满足差异化需求 [4] 应用场景覆盖 内容创作领域 - 人像动态写真:支持多套服装更换同时保持面部相似度 [9] - 宠物主题内容:可自动生成宠物生活场景视频 无需提示词输入 [11] - 产品广告视频:一键生成电商产品展示视频 自动匹配卡点音乐 [12] 垂直行业应用 - 科普视频制作:80秒长视频可同步生成专业口播与动画内容 [14] - 像素风格视频:基于简单场景词生成情侣主题像素动画 [15] - 职场主题内容:支持复杂工作流处理 实现多语音风格对话视频 [16] 技术突破 - 实现文字-图片-视频-音频的全流程自动化生成 [14] - 视频模型稳定性显著提升 保证内容连续生成质量 [11] - 突破传统视频制作限制 无需专业打光与场地即可产出广告级内容 [12]
480P的元宇宙入口:Midjourney不是在做视频,是在造"任意门"
歸藏的AI工具箱· 2025-06-19 16:20
产品功能与定价 - Midjourney Video V1仅支持图生视频 不支持文生视频 生成方式为在图片上点击"Animate"按钮 无需输入提示词[3] - 每次生成4个视频 支持通过延长功能扩展至20秒 提供低动态幅度(适合静态场景)和高动态幅度(适合动态场景)两种模式[3][5] - 视频分辨率标称480P 但实际采样率高于部分720P模型 长边尺寸超过720P标准[6] - 视频生成消耗快速生成时间 成本与图片超分相当 60美元会员计划提供无限慢速生成额度[9] 技术表现 - 美学表现顶级 在色彩表现和氛围营造方面保持Midjourney一贯优势[9] - 高风格化视频处理能力突出 能稳定保持罕见风格的色彩、笔触和氛围一致性[11] - 生成速度极快 4个视频仅需65秒 延长稳定性优异 复杂场景下17秒视频仍不崩溃[13] - 在提示词理解、复杂运动稳定性和物理特性方面表现一般 落后于第一梯队1080P模型[15] 战略定位与愿景 - 公司明确不参与现有视频模型竞争框架 专注实现"实时图像生成AI系统"的长期愿景[19] - 技术路线聚焦生成速度(65秒/次)和长时间一致性(17秒不崩溃)两大核心指标[19][13] - 商业模式具备独特性 无融资压力支撑长期主义发展路径[20] - 产品设计体现"想象力具象化"理念 视频探索页面已初步展现元宇宙入口雏形[21][25] 行业启示 - 在行业普遍追逐高分辨率和物理准确性时 公司选择重新定义问题本质[23] - 产品命名《精骛八极 心游万仞》隐喻突破时空限制的创作理念 与公司愿景高度契合[22] - 480P视频模型可能成为未来元宇宙的基础设施 体现差异化技术路线价值[25]
Karpathy 最新演讲精华:软件3.0时代,每个人都是程序员
歸藏的AI工具箱· 2025-06-19 16:20
软件开发范式演变 - 软件1 0定义为传统代码编程 程序员使用Python C++等语言编写明确指令 源代码编译为二进制文件 典型例子包括特斯拉自动驾驶早期C++代码 [5][6] - 软件2 0以神经网络权重为核心 通过数据集训练生成参数 优势包括计算同质性 硬件易实现性 超人性能等 代表案例有AlexNet和AlphaGo Zero [7][10] - 软件3 0由大型语言模型驱动 自然语言提示成为编程方式 LLMs被视为新型计算机 类比1960年代操作系统 具有自然语言接口和用户普及特性 [11][12][14] LLM技术特性与类比 - 公用事业特性:LLMs需要高资本支出训练 通过API提供服务 OpenRouter实现供应商切换 服务中断会导致"智能断电" [16] - 晶圆厂特性:训练需巨额投入 NVIDIA GPU类似"无晶圆厂"模式 Google TPU则像自建晶圆厂 但软件防御性弱于物理设施 [17] - 操作系统特性:LLMs形成复杂软件生态系统 应用可跨后端运行 当前处于类似1960年代的分时计算阶段 个人计算革命尚未到来 [18] LLM认知模型与缺陷 - 超能力:具备百科全书级知识记忆 远超人类个体能力 [22] - 认知缺陷:包括幻觉 锯齿状智能 顺行性遗忘和易受骗性 需要人类监督验证 [23] - 人机协作:需保持AI在"牵引绳"上 通过生成-验证循环和GUI加速审计 [26] 行业应用机遇 - 部分自主应用:应具备上下文管理 多模型编排 专用GUI和自主性滑块 类似Cursor和Perplexity的交互设计 [26][28] - Vibe Coding:降低编程门槛实现"人人都是程序员" 但产品化面临非代码操作挑战 [30] - Agent基础设施:需构建lm.txt文件 LLM优化文档 上下文工具等支持Agent交互的新范式 [33][34] 技术扩散特征 - 逆向扩散路径:LLMs首先惠及普通消费者 ChatGPT成增长最快应用 企业政府应用滞后于组织惯性和合规障碍 [19][20] - 钢铁侠战甲策略:优先开发增强工具而非完全自主Agent 通过自主性滑块渐进升级 [2][28] - 长期发展预期:2025-2035年为Agent十年 需克服演示到产品的可靠性鸿沟 [27]
从案例分析到提示词写作,手把手教你制作最火爆的AI视频
歸藏的AI工具箱· 2025-06-18 14:57
AI视频制作趋势 - AI生成视频在社交媒体平台获得高互动量 包括国内外市场 即使内容看似简单但具有强吸引力 [1][2][3] - AI视频已渗透广告营销领域 案例显示某牙医诊所广告改用"大脚男孩"主题后播放量从数千跃升至56万次 [4] Veo3技术突破 - Veo3显著降低AI视频制作成本 仅需两次生成与简单合并即可完成作品 大幅简化流程 [6] - 模型支持从创意构思到提示词生成的全程自动化 人类仅需筛选点子与复制提示词 [6] - 技术突破跳过传统视频制作的图片生成 语音合成 唇形同步等复杂环节 减少90%工作量 [35] 爆款视频核心要素 - 反差感引擎:通过现代形式呈现古老/虚构内容 或让严肃角色展现生活化特质 制造喜剧效果 [11][14] - 伪纪实手法:模拟真实拍摄增强沉浸感 如采访/Vlog形式强化荒诞性 [12][14] - 共同认知基石:利用历史事件 流行文化IP或文化迷因降低观众理解成本 [13][14] - 情感共鸣点:将宏大叙事转化为普通人吐槽 如暴风兵抱怨"混蛋老板"引发打工人共情 [23] 创意生产方法论 - 使用NotebookLM交叉分析多个爆款视频 提取分镜结构 台词内容及爆火原因 [8][9][10] - 通过Gemini生成新创意 需包含8秒分镜的详细环境 角色 台词描述 优先选择现实题材 [17][18][21] - 提供两类标准化提示词模板:第一人称Vlog强调主观镜头 虚构采访侧重权威角色与金融黑话反差 [29][30][32][33] 视频生成流程优化 - 推荐使用Gemini Pro会员或FLOW工具 后者需切换至Veo3 Fast模型控制成本 [37][40] - 后期仅需基础剪辑拼接 可添加台标 滚动文字等元素增强伪纪实感 [44] - 支持1080P超分输出提升画质 未来视频类Agent有望进一步简化字幕等包装工作 [45][46] 行业影响 - Veo3推动AI视频制作门槛降低 每日新增爆款视频覆盖多品类 验证技术应用潜力 [44][46] - 每减少一个制作环节可拓展10倍创作者基数 技术普及将释放潜在内容生产力 [44][46]