渐进式披露
搜索文档
从入门到用好 Agent Skills,看这一篇就足够了
Founder Park· 2026-01-21 13:52
Claude Skills的概念与原理 - Skills是模块化的能力扩展包,用于扩展通用Agent的功能,每个Skill打包了LLM指令、元数据和可选资源(脚本、模板等),Agent在需要时自动使用它们[22] - 可以将Skill理解为“通用Agent的扩展包”或“工作交接SOP大礼包”,它教会Agent如何完整处理特定工作,将执行方法、工具调用方式及相关知识材料封装为一个完整的“能力扩展包”[14][23] - 一个相对标准的Skill结构包括:必需的SKILL.md核心指令文件,以及可选的scripts/可执行代码、references/参考文档和assets/素材资源目录[24] Skills与MCP的区别及技术优势 - MCP是一种开放标准协议,关注AI如何以统一方式调用外部的工具、数据和服务,本身不定义任务逻辑或执行流程[18] - Skill则教会Agent如何完整处理特定工作,它将执行方法、工具调用方式以及相关知识材料封装为一个完整的“能力扩展包”,使Agent具备稳定、可复用的做事方法[18] - Skills相较于Workflow和程序编写的AI应用有三个关键优势:非技术人员可用零代码、自然语言编写;能突破预设限制,灵活响应用户输入,应对边缘情况;多个Skill可以自由联用,应用方式极其灵活[33] Skills的真实价值与潜力 - Skills的价值被大大低估,一个好Skill能发挥的智能效果,甚至能轻松等同、超越完整的AI产品,任何不懂技术的人都能开发属于自己的Skills[3][4] - 非技术出身的领域专家,离自己做专业Agent只剩隔着一层窗户纸——将专业经验和工作流程用文档形式写清楚,Agent就能照着执行[54] - Skills让更多人、组织、行业参与AI应用的创造成为可能,不必说服IT团队理解需求或等待产品迭代,自己就能创建工具并随时调整Skill的行为[163][164] Skills的核心运行机制:渐进式披露 - Skills采用“渐进式披露”机制来管理上下文长度,Skill内容被划分为三个层级:Level 1(SKILL.md元数据,始终加载,约100 tokens)、Level 2(SKILL.md正文,触发时加载,建议少于5000 tokens)和Level 3(子技能文档、代码脚本、资源等,按需动态加载)[77][79][85] - 默认只加载元数据意味着可以给一个Agent同时安装很多Skills而不影响上下文性能[82] - Level 3的代码脚本在Agent电脑(虚拟机)中直接调用,脚本代码本身不进Context Window,只有运行完成后的输出会进入Agent的Context[90] Skills对AI产品设计的影响与未来趋势 - 基于Skills的垂直Agent,在性能、开销上的问题并非不可解决的持续性问题,因为Skills能直接调用代码逻辑而不进Context窗口,Agent也可以只承担类似hook的角色,实质上和正常程序运行并无差别[101][102] - 未来AI Native产品的发展趋势可能是:内置类似Skill的指引,当用户输入时,AI快速自行判断并自动匹配各种Skills来处理,从而用同一个多模态输入框处理用户各种不同的输入,并能灵活应对边缘问题和提供绝对个性化的生成需求[103][104] - 结合token价格下降和Agent速度提升的趋势,Skills-based的Agent产品有望成为主流[102] Skills的适用场景 - 最典型的信号是:为了完成某个任务,在多轮对话中需要不断向AI解释一件事应该怎么做,此时应将规则打包成一个Skill,一次创建永久复用[141][142] - 当某些任务需要特定知识、模板、材料才能做好时,属于“通用Agent + 垂直知识”的典型场景,适合使用Skill[143][144] - 当一个任务需要多个流程协同完成时,可以将每个环节的指令文档、可执行脚本、参考材料、可用资源打包成单个或多个Skill,让Agent智能调用不同的Skill模块来完成复杂任务[146][148][149] Skills的生态现状与创业机会 - Claude Skills于2025年10月中旬正式发布,两个月后Agent Skills作为开放标准被进一步发布,意在引导一个新的AI Agent开发生态,OpenAI、Github、VS Code、Cursor均已跟进[10][11][13] - 现有Skills公开市场(如skillsmp.com/zh)尚不完善,缺少合理的分类、排序与精选体系,导致用户难以找到需要的Skills[126][129] - 对于Agent创业者及非技术领域专家,Skills代表新机会:垂直Agent工具用传统方式开发周期需数周,但用Skill方式几小时甚至几分钟就能测试起来,且智力与能力上限有机会直逼通用Agent,这极大地降低了验证想法的成本[156][157][161]
一文带你看懂,火爆全网的Skills到底是个啥。
数字生命卡兹克· 2026-01-13 09:05
Skills的概念与热度 - Skills是AI领域当前的热点概念,其热度在AI圈内已不亚于当年的Prompts [4] - 各种Skills相关的GitHub仓库受到广泛关注,例如一个包含50多个Claude技能的仓库已获得18K星标,另一个名为superpowers的基于Skills的开发工作流程项目也获得18K星标 [2][3] Skills的定义与核心特征 - Skills翻译为“技能”,是给AI Agent(智能体)使用的技能 [4] - 在形式上,Skills是一个文件夹,而不仅仅是文本,其中可以包含Prompt、参考文档、脚本等多种资源,供Agent在需要时加载 [23] - Skills的核心作用是**将流程性知识封装成可复用的能力包**,使Agent能够随需调用并稳定执行任务 [29] - Skills的设计采用了“渐进式披露”原则,即先加载元信息目录,再按需加载详细内容,以优化Token使用并降低认知负荷 [25][28] Skills与Prompt、MCP的区别 - **Prompt**:相当于对Agent(比喻为实习生)的**口头临时指令**,适合一次性、临场、可变的场景,其作用范围仅限于当前对话轮次 [25] - **Skills**:相当于给Agent的**内部SOP手册或知识库**,包含规范、脚本、模板等,可供Agent在需要时自行查阅并复用 [25] - **MCP**:相当于给Agent的**门禁卡**,其功能是让AI应用能够安全地连接和调用外部系统或API,不涉及具体任务执行方法的教导 [29][30] Skills的应用案例与价值 - **AI选题系统**:通过1个主控Agent和3个Skills(热点采集、选题生成、选题审核)实现自动化,将原本需要2-3小时的人工选题流程大幅简化 [4][5][6][7] - **整合包生成器**:通过Skill将复杂的GitHub开源项目(如Manim动画引擎)打包成带有前端界面的一键启动整合包,解决了非技术用户的痛点 [9][13][16][18] - Skills的价值在于**复用**,无论是专业人士封装工作流,还是普通用户固化常用需求,都能显著提升效率,其潜力被市场认为仍被大大低估 [18] Skills的技术规范与创建 - Skills由Anthropic公司于2025年10月在Claude Code上首次推出,并于2025年12月18日作为开放标准发布,从而引爆了生态 [19][21] - 一个标准的Skill文件夹**名称必须使用小写字母和连字符**(例如 `hotspot-collector`) [36] - 每个Skill文件夹中,**`SKILL.md` 是唯一必需的核心文件**,其结构固定为两部分 [37] 1. **YAML头部**:包含 `name` 和 `description` 字段,用于Skill识别 [37] 2. **Markdown主体**:详细的工作流程、输出格式要求和示例 [38] - `description` 字段至关重要,需使用**第三人称**清晰描述Skill的功能和调用时机,并包含触发关键词,同时建议将整个 `SKILL.md` 文件控制在500行以内以保证最佳效果 [38][39] Skills的生态与获取 - 除了Claude Code,OpenCode、Codex、Cursor、Codebuddy等主流编程工具均已兼容Skills标准 [23] - Anthropic官方开源了一个Skills仓库(`https://github.com/anthropics/skills`),提供了大量实用Skills,该仓库已获得**38.3k星标**和**3.5k分叉** [44][45] - 官方仓库中包含了16个示例Skills,涵盖文档处理、前端设计、PDF/Excel操作、Skill创建等多个领域,其中 `skill-creator` 这个Skill本身就可以指导用户创建新的Skills [45][46][47] Skills的安装与使用 - **安装方法一(命令安装)**:在Claude Code或OpenCode中,直接向AI发送包含Skill项目地址的Prompt指令即可完成安装 [49][51][52] - **安装方法二(手动放置)**:将Skill文件夹拖放到指定本地目录 [54] - Claude Code路径:`~/.claude/skills` [55] - OpenCode路径:`~/.config/opencode/skill` (macOS/Linux) 或 `C:\Users\[用户名]\config\opencode\skill` (Windows) [55][56] - 建议将Skills安装在全局目录,以便在所有项目中共用 [56] - 使用Skills时,用户只需通过自然语言对话提出需求,Agent便会自动判断并调用相应的Skill来执行任务 [57]
Manus 产品立项初期会议纪要
Founder Park· 2025-12-28 14:36
文章核心观点 - 文章记录了Manus项目立项初期的核心讨论,旨在通过打造一个通用性优先的智能体平台,并逐步优化高频场景,以重新定义智能体并成为人类心智的延伸 [2][8][23] 产品哲学与战略定位 - 确立了“通用性优先,逐步沉淀和优化高频场景”的核心战略,类比为“百度模式”,即先构建通用平台吸引用户探索,再基于高频需求反向优化推出预设能力 [8][10][14] - 讨论了通用性的潜在挑战,包括与专业软件(如Final Cut Pro)竞争时在复杂图形界面操作上的短期瓶颈,以及通用智能体可能面临的不同领域知识冲突问题 [11] - 提出了更具未来感的设想,即若Agent运行在完整的“带桌面环境的虚拟机”中,可通过模拟键鼠操作直接使用专业软件,从而突破通用性边界 [11] 技术架构与核心能力 - 技术基石是实现Agent对Web的复杂操作,探讨了“Browser in Browser”概念,即由云端Agent完全控制的浏览器实例流式传输到用户前端 [12][13] - 参考了名为XPRA的开源项目,该项目能将远程应用界面以流式方式传输至前端,且仅传输变化的像素区域,为低延迟远程交互提供了可行方案 [13] - 将“状态持久化”视为构建真正“代理”能力的核心痛点,旨在解决当前Agent产品(如Devin)会话“一次性”的问题,需持久化的关键部分包括:网站登录状态(Cookies & LocalStorage)、文件系统、环境变量与密钥管理 [15][18] - 设计了“用户接管”机制,当Agent遇到障碍(如验证码)时,用户可流畅接管浏览器操作,完成后将控制权交还Agent,以弥补当前AI能力不足 [15] 用户界面与交互设计 - 分析了Devin界面的双重角色:左侧对话流建立“信任”,右侧工作区(Planner, Shell, Browser)为专业用户提供“控制”和透明度 [16][17][19] - 批判了Devin界面的不足:信息过载、缺乏全局概览(如编辑器无文件目录树)、功能组织混乱(如将表格文档全塞入Browser标签) [19] - 提出了Manus的UI设计哲学:采用“渐进式披露”,默认呈现简洁对话框,随任务展开才浮现相关工具窗口;采用“操作系统隐喻”,将浏览器、表格、文档编辑器等设计为独立平等的“一级应用”,提供清晰可扩展的框架 [17][19] 人机协作模式与价值主张 - 认为Agent的价值在于克服人类的认知与执行局限,如人类的“经验主义陷阱”、“缺乏持续性”,而Agent可以不知疲倦地从“第一性原理”出发进行全局搜索与评估 [21][24] - 以游戏《EVE Online》的复杂经济系统管理为例,揭示了Agent作为“总调度官”或“超级助理”,帮助人类管理超越单人认知与执行能力上限的庞大工程的潜在高价值应用场景 [21] 项目结论与后续步骤 - 讨论形成了可指导后续工作的核心原则:战略上采用“通用性平台+高频场景优化”双轮驱动;技术上以“状态持久化”和“云端浏览器”为核心构建架构;产品上以“渐进式披露”和“操作系统隐喻”打造界面 [22][25] - 团队迅速成立项目组,明确了分工,项目正式启动 [23]
iOS26不尽人意,但相机App值得所有厂家学习
虎嗅· 2025-07-01 13:16
iOS 26相机设计革新 - iOS 26发布后Liquid Glass设计语言引发争议 但相机应用设计获得跨阵营认可 成为行业学习范本 [1][3][4] - 新相机界面大幅简化 将屏幕大部分区域留给取景画面 视觉干扰降至最低 [8][16] - 底部模式切换器仅保留照片与视频两个核心选项 衍生模式通过侧滑唤出 操作更直接 [9][11] - 设置控件改为半透明玻璃浮窗 快捷控件重新布局 高频功能前置 低频功能放入二级菜单 [13][14] 苹果设计哲学 - 相机设计严格遵循人机交互指南两大基石原则:清晰(使用SF Symbols确保表意明确)与遵从(UI元素中性克制 突出取景内容) [18][19] - 采用"渐进式披露"策略 将复杂性隐藏 仅在需要时呈现 大幅降低日常使用认知负荷 [20][22] - SF Symbols 7图标库升级带来革命性动画功能(绘制动画/可变绘制/渐变效果/魔术替换) 支撑新相机设计细节 [25][26][27][28] 手机影像发展趋势 - 手机摄影首要任务是服务日常用户 需满足快速/高效/集中注意力的拍摄需求 而非追求专业参数 [35][36] - 复杂操作界面会打断拍摄者与被摄对象的直觉连接 成为"决定性瞬间"捕捉的天敌 [38][39][43] - 行业过度追求功能叠加导致用户选择负担增加 最佳解决方案是尽可能减少操作决策环节 [45][46] 跨平台设计差异 - Android阵营因技术复杂度和成熟设计哲学集体拒绝跟进Liquid Glass设计语言 [3] - 数码相机厂商通过细分机型满足专业需求(如索尼M/R/S系列) 与手机摄影的大众化定位形成鲜明对比 [32][34]