Agent Skills
搜索文档
2026 这 20 个 Skills 都装了吗?现在玩 Agent 不装 Skills,就像手机没装 APP~
菜鸟教程· 2026-03-19 11:31
文章核心观点 - 智能体(Agent)的能力差距主要取决于其集成的“Skills”(技能),而非模型参数大小[31][32] - Skills的本质是为智能体注入行业最佳实践、真实项目经验、工程规则约束和结构化思考框架,是智能体能力延展的关键[4] - 未来的开发者角色将转变为定义规则和塑造AI的人,而不仅仅是编写代码[34] 对Skills的认知与重要性 - 当前普通智能体存在缺陷:能聊天但不会写工程级代码,能回答问题但不懂真实世界规则,能生成界面但不知道设计规范[6] - 为智能体安装Skills,如同为手机安装App,是赋予系统能力延展的必要步骤[1] - 工具和模型会持续变强和迭代,但决定智能体能力上限的是Skills所包含的规则[32][33] 关键Skills介绍与安装数据 - 文章推荐了20个Skills,并指出先安装前5个能明显提升生产力体感[5] - 在skills.sh平台上,以下5个Skills安装量最大,具体数据如下[7]: - `find-skills`: 安装量408.4K - `vercel-react-best-practices`: 安装量192.7K - `web-design-guidelines`: 安装量149.0K - `remotion-best-practices`: 安装量125.5K - `frontend-design`: 安装量123.0K 重点Skills功能详解 - **find-skills**: 让智能体具备主动搜索、发现和推荐其他Skills的能力,相当于内置了技能商店[8] - **vercel-react-best-practices**: 内置40多条React/Next.js性能规则,帮助消除waterfall、优化Server Components,避开性能陷阱[9] - **frontend-design**: 指导智能体生成高质量、非模板化的UI,显著提升配色、界面层次和动效水平[10] - **web-design-guidelines**: 包含100多条Web可访问性、用户体验和性能规范,用于代码审查,帮助避免低级UX错误[11] - **remotion-best-practices**: 提供使用React制作视频的最佳实践,涵盖动画、导出和性能优化,帮助新手快速制作高质量短视频[13] 其他推荐Skills概览 - **brainstorming**: 基于Superpowers框架,为智能体提供结构化头脑风暴、测试驱动开发和工作流规划能力[14] - **agent-browser** 与 **browser-use**: 实现浏览器自动化功能,如浏览网页、自动填表、截图,后者使用Rust编写运行更快[15][16] - **supabase-postgres-best-practices**: 提供Supabase与PostgreSQL数据库优化指南,提升数据库性能[17] - **azure-cost-optimization**: 提供Azure成本优化规则,帮助企业节省云服务开支[18] - **cloudflare/skills**: 提供Cloudflare Workers与边缘计算的最佳实践[19] - **redis/agent-skills**: 涵盖Redis高级使用模式与反模式,包括缓存、向量、流等[20] - **vercel-composition-patterns**: 提供React组合模式最佳实践,与`vercel-react-best-practices`配合使用[21] - **vercel-react-native-skills**: React Native官方最佳实践[22] - **sleek-design-mobile-apps**: 简洁现代移动App设计指南[23] - **ui-skills**: 提供极致UI组件与交互最佳实践,能生成设计师级别的界面[24] - **pdf**: 提供PDF生成、解析和处理的全套能力[25] - **seo-audit**: 提供网站SEO全面审计与优化建议[26] - **skill-creator**: 教导用户和智能体如何创建新的Skills,实现技能自给自足[27] - **code-review-expert**: 像资深工程师一样审查代码,涵盖SOLID原则、安全、性能等维度[29]
YC总裁转发、登顶Hacker News:SkillsBench揭开Agent技能扩展的残酷真相
机器之心· 2026-03-06 19:07
SkillsBench论文的核心发现与影响 - 一篇名为《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》的论文在AI社区引发广泛关注,揭示了Agent技能(Agent Skills)有效性的关键真相 [2] - 论文核心观点:高质量、人工构建的Agent Skills能显著提升AI智能体的任务成功率,而AI自生成的技能通常无效甚至有害,这挑战了“Agent自我进化”的流行叙事 [2][19][23] - 研究由来自BenchFlow、斯坦福、CMU、UC Berkeley、牛津等23家产学研机构的36位学者联合撰写,并集结了105位领域专家共同贡献,确保了研究的权威性与广泛性 [2] Agent Skills的定义与生态现状 - Agent Skills是一种在推理时动态增强LLM Agent的结构化程序性知识包,由指令文件加可选的可执行资源组成 [5] - 与传统的System Prompts、RAG和Tool Documentation有本质区别,Skills是目前唯一同时具备模块化复用、程序性指导、可执行资源和跨模型可移植性的增强方式 [5] - Skills生态正在经历野蛮生长,研究团队聚合到高达47,150个去重后的独立Skills [6] - 在136天的时间跨度内,社区创建的Skills累计总量攀升至84,192个,日均新增810个,单日新增峰值高达18,904个 [8] - Skills已从单一平台特性演变为跨生态行业标准,Anthropic的Claude Code率先定义规范,Google的Gemini CLI、OpenAI的Codex CLI以及OpenClaw等平台均已跟进支持 [8][34] SkillsBench的研究设计与评估方法 - 研究设计拒绝使用“LLM-as-judge”模式,打造了最严苛的测试场 [14] - 基准构建阶段从三大来源聚合了47,150个去重Skills,并由105位贡献者提交了322个候选任务 [14] - 经过自动化检查与105位领域专家的人工审核,最终筛选出86个高质量任务(84个参评),覆盖软件工程、金融、医疗、制造等11个领域 [14][18] - 评估在Docker容器中跨3种条件(无Skills、人工构建Skills、AI自生成Skills)、3种商用Agent平台(Claude Code, Gemini CLI, Codex CLI)及7种模型配置进行,通过代码级确定性验证产出了7,308条运行轨迹 [14][15] 核心发现一:人工构建Skills带来显著性能飞跃 - 注入专家人工构建的Skills后,Agent的平均成功率从24.3%跃升至40.6%,获得了+16.2个百分点的绝对提升 [20] - Claude Code + Opus 4.5组合获得了最大的性能增益(+23.3pp),反映了Claude Code对Agent Skills规范的原生优化 [20] - Gemini CLI + Gemini 3 Flash达到了最高的绝对性能(48.7%) [20] - Gemini 3 Flash通过迭代探索弥补推理深度,每任务消耗输入Token是Pro的2.3倍(1.08M vs 0.47M),但凭借4倍低的单价,每任务成本反而低44%($0.55 vs $0.98) [21] 核心发现二:AI自生成Skills无效甚至有害 - 依赖AI自生成的Skills不仅毫无益处,反而导致平均成功率下降1.3个百分点,直接挑战了“Agent自我进化”的叙事 [23] - GPT-5.2下滑最为严重(-5.6pp),仅有Opus 4.6展现出极其微弱的正向收益(+1.4pp) [23] - 失败模式包括:模型生成的程序不精确或不完整;对于高专业壁垒任务,模型无法意识到自身知识缺乏,盲目采用通用方法试错 [24][27] 核心发现三:Skills的杠杆效应存在显著领域差异 - 大模型预训练数据覆盖越薄弱的垂直领域,Skills带来的杠杆效应越大 [24][26] - 医疗和制造领域因蕴含大量非公开的业务流规范,收益极为惊人,分别达到+51.9pp和+41.9pp的绝对提升 [25][26] - 软件工程(+4.5pp)和数学(+6.0pp)领域的收益微乎其微,因为顶级LLM已在海量代码和数学公式上得到充分训练 [25][26] 核心发现四:小模型搭配高质量Skills可超越大模型 - 在性能-成本的帕累托前沿上,Skills的加持将整条曲线显著上移 [29] - Claude Haiku 4.5搭配Skills的通过率达到27.7%,反超了处于无Skills状态的旗舰模型Claude Opus 4.5(22.0%),而两者API推理成本相差数十倍 [29] - Gemini 3 Flash搭配Skills以低44%的成本达到了全场最高的48.7%通过率 [29] 工程最佳实践与战略启示 - 2-3个Skills是性能甜点区,提供2-3个Skills时性能提升达到峰值(+18.6pp);当强行塞入4个以上时,由于上下文干扰与认知过载,收益骤降至+5.9pp [31][32] - Skills的格式设计至关重要:采用Detailed(步骤详尽且聚焦)格式能带来+18.8pp的提升,而Comprehensive(详尽无遗)的长文档反而会导致性能退化(-2.9pp) [32][33] - 最优策略已从“选最强的模型”转变为“选最适配的Skills + Harness组合” [34] - 在算力受限的背景下,“小模型 + 高质量垂直Skills”为工业制造和医疗等场景提供了极具性价比的解决方案 [35] - 未来AI应用的护城河在于将行业的“暗知识”与复杂的业务SOP,精准转化为标准化的Agent Skills [36]
刚刚,一个2.6万亿AI独角兽诞生,英伟达微软押注,马斯克急了
36氪· 2026-02-13 10:28
融资与估值 - 公司完成300亿美元G轮融资,投后估值达3800亿美元 [1] - 本轮融资由安大略省教师退休基金会和Coatue联合领投,其他联合领投方包括D. E. Shaw Ventures、Dragoneer、Founders Fund、ICONIQ和MGX [4] - 重要投资者包括黑石集团、高盛另类投资旗下成长股权部门、摩根大通、红杉资本、淡马锡等 [4] - 本轮融资包含此前已公布的英伟达和微软的投资,英伟达承诺投资100亿美元,微软承诺投资50亿美元 [5] 财务与商业化表现 - 公司年化经常性收入已达140亿美元,在过去三年中每年平均增长超10倍 [1] - 年消费超10万美元的Claude客户数量在过去一年增长7倍 [6] - 年度支出超百万美元的客户数量已突破500家,两年前仅有十余家 [6] - 财富10强企业中有8家现为Claude客户 [6] 核心产品Claude Code表现 - Claude Code年化经常性收入已超25亿美元,自2026年初以来增幅翻倍 [6] - Claude Code的每周活跃用户数自2026年1月1日以来实现翻番 [6] - 全球GitHub公共提交中的代码有4%由Claude Code生成,该比例是一个月前的2倍 [6] - Claude Code的企业订阅量自2026年初增长了4倍,企业使用贡献已超总营收半数 [6] 模型与产品技术进展 - 公司发布旗舰模型Claude Opus 4.6,是首款开启100万token上下文窗口测试功能的旗舰级模型,在长上下文查询、推理、规划等能力上有所提升 [7] - Claude系列模型已从3.7版本迭代至4.5版本,编程能力、Agent能力明显提升 [7] - Claude是唯一在Amazon Web Services Bedrock、Google Cloud Vertex AI、Microsoft Azure Foundry三大全球云平台同时可用的AI模型 [2] - 公司推出Agent Skills开放标准,试图定义Agent赛道的开放生态 [10] - 公司推出了Claude Code的图形化UI版本Cowork,使非技术背景人员也能使用其Agent能力 [10] 资金用途与公司发展 - 本次融资资金将用于前沿研究、产品开发及基础设施扩建 [2] - 公司在基础设施层面多元化布局,横跨AWS Trainium、谷歌TPU、英伟达GPU [11] - 公司正在为IPO做准备,最早可能在2026年进行,已聘请律师事务所并接触多家投行 [10]
打破学科壁垒!400篇参考文献重磅综述,统一调查「人脑×Agent」记忆系统
具身智能之心· 2026-01-11 11:02
文章核心观点 - 一篇由哈工大、鹏城实验室、新加坡国立、复旦、北大联合发布的综述《AI Meets Brain: A Unified Survey on Memory System from Cognitive Neuroscience to Autonomous Agents》首次系统性地将人脑记忆机制与人工智能代理(Agent)的记忆统一审视,旨在为设计真正“类人”的Agent记忆系统奠定理论基石[2] - 该综述横跨认知神经科学与人工智能两大领域,涉猎相关文献共400篇,旨在打破学科壁垒,推动Agent记忆系统的发展[3] 记忆的定义与剖析 - **认知神经科学角度**:记忆是连接过去经验与未来决策的认知桥梁,分为两个阶段:第一阶段快速形成并整合新信息的神经表征,第二阶段对存储的表征进行巩固或检索[6] - **LLM视角**:大语言模型的记忆表现为三种形式:参数记忆(内化在神经网络权重中的知识)、工作记忆(基于上下文窗口的实时推理)和显式外部记忆(如RAG)[7] - **Agent视角**:Agent的记忆是一个动态的认知架构,超越了简单的存储,其核心维度包括结构化存储(将非结构化交互转换为机器可理解的格式)和动态调度(模拟人脑的遗忘与唤醒机制,解决有限注意力与大量存储间的冲突)[7] 记忆的作用 - 在LLM驱动的Agent中,记忆系统充当关键主动组件,旨在实现三大核心作用:突破上下文窗口的限制、构建长期个性化画像、驱动基于经验的推理[10][12] 记忆的分类学 - **基于认知神经科学的分类**:人脑记忆分为短期记忆(临时工作台,容量约4~9个单位信息)和长期记忆(永久档案馆,无严格容量限制);长期记忆进一步分为情景记忆(对个人亲身经历事件的记忆)和语义记忆(对事实、概念和规则的记忆)[15][21] - **Agent的双维度记忆分类**: - **基于性质的分类**:直接对齐人脑,分为情景记忆(存储完整的交互轨迹,提供“How to”的过程性知识)和语义记忆(存储Agent的知识库,提供“What-is”的陈述性知识)[17][20][22] - **基于范围的分类**:分为轨迹内记忆(临时工作区,仅当前任务有效)和跨轨迹记忆(永久存储库,跨越多个任务和生命周期)[17][23][27] 记忆的存储机制 - **认知神经科学中的记忆存储**: - **短期记忆**:存储位置分布在感觉皮层和额顶网络,存储形式包括持续活动和活动-沉默突触连接[28] - **长期记忆**:存储位置涉及海马体(作为索引)和新皮层(作为永久仓库),存储形式包括事件单元和认知地图[28] - **Agent中的记忆存储**:是显式的工程构建,存储位置包括上下文窗口(对应轨迹内记忆)和外挂的记忆库(对应跨轨迹记忆);存储形式包括文本、图结构、参数和隐式表示(高维向量)[31][35] 记忆的管理系统 - **认知神经科学**:记忆管理是一个动态循环,包括记忆形成(编码、巩固、整合)、记忆更新(以预测误差为核心驱动力)和记忆检索(重构性,伴随再巩固过程)[33][34][38][39] - **Agent记忆管理**:形成一个由记忆提取、更新、检索和应用组成的精密闭环[33][38] - **记忆提取**:分为扁平提取、分层提取和生成式提取[41] - **记忆更新**:分为轨迹内更新(如实时过滤噪声)和跨轨迹更新(如引入遗忘机制)[41] - **记忆检索**:分为基于相似度的检索和多因素检索(考虑时间、重要性等因素)[41] - **记忆应用**:分为上下文利用、参数内化等方式[41] Agent记忆系统评测 - 现有的评测基准主要分为两类: - **面向语义的基准**:评估Agent如何构建、维护和利用其内部记忆中的信息状态,例如LoCoMo、MemoryBank等[42][44] - **面向情景的基准**:评估复杂下游应用场景中Agent记忆系统的实际性能增益,例如WebArena、ScienceWorld等[42][44] Agent记忆的安全 - **主要攻击方式**: - **窃取攻击**:利用精心设计的Prompt诱导Agent泄露长期记忆中存储的敏感信息[47] - **投毒攻击**:向记忆库中注入恶意数据以植入后门或进行认知污染,改变Agent行为或使其判断力退化[47] - **防御策略**:包括检索防御(在读取前清洗)、响应防御(在生成回答时监控拦截)和隐私防御(对敏感数据进行匿名化处理)[46][54] 未来展望 - **多模态记忆**:未来的记忆系统需要是全模态的,统一存储与表示文本、图像、音频和视频等多模态信息,使Agent能真正理解物理世界[49][55] - **Agent Skills**:提出“Agent Skills”概念,将指令集、可执行脚本等封装为结构化单元,旨在解决不同Agent间记忆难以移植重用的问题,并探索跨Agent的skills转移和适应机制[50][55]