Agent Skills - 财报，业绩电话会，研报，新闻

Agent Skills

搜索文档

2026 这 20 个 Skills 都装了吗？现在玩 Agent 不装 Skills，就像手机没装 APP～

菜鸟教程· 2026-03-19 11:31

文章核心观点 - 智能体（Agent）的能力差距主要取决于其集成的“Skills”（技能），而非模型参数大小[31][32] - Skills的本质是为智能体注入行业最佳实践、真实项目经验、工程规则约束和结构化思考框架，是智能体能力延展的关键[4] - 未来的开发者角色将转变为定义规则和塑造AI的人，而不仅仅是编写代码[34] 对Skills的认知与重要性 - 当前普通智能体存在缺陷：能聊天但不会写工程级代码，能回答问题但不懂真实世界规则，能生成界面但不知道设计规范[6] - 为智能体安装Skills，如同为手机安装App，是赋予系统能力延展的必要步骤[1] - 工具和模型会持续变强和迭代，但决定智能体能力上限的是Skills所包含的规则[32][33] 关键Skills介绍与安装数据 - 文章推荐了20个Skills，并指出先安装前5个能明显提升生产力体感[5] - 在skills.sh平台上，以下5个Skills安装量最大，具体数据如下[7]： - `find-skills`: 安装量408.4K - `vercel-react-best-practices`: 安装量192.7K - `web-design-guidelines`: 安装量149.0K - `remotion-best-practices`: 安装量125.5K - `frontend-design`: 安装量123.0K 重点Skills功能详解 - **find-skills**: 让智能体具备主动搜索、发现和推荐其他Skills的能力，相当于内置了技能商店[8] - **vercel-react-best-practices**: 内置40多条React/Next.js性能规则，帮助消除waterfall、优化Server Components，避开性能陷阱[9] - **frontend-design**: 指导智能体生成高质量、非模板化的UI，显著提升配色、界面层次和动效水平[10] - **web-design-guidelines**: 包含100多条Web可访问性、用户体验和性能规范，用于代码审查，帮助避免低级UX错误[11] - **remotion-best-practices**: 提供使用React制作视频的最佳实践，涵盖动画、导出和性能优化，帮助新手快速制作高质量短视频[13] 其他推荐Skills概览 - **brainstorming**: 基于Superpowers框架，为智能体提供结构化头脑风暴、测试驱动开发和工作流规划能力[14] - **agent-browser** 与 **browser-use**: 实现浏览器自动化功能，如浏览网页、自动填表、截图，后者使用Rust编写运行更快[15][16] - **supabase-postgres-best-practices**: 提供Supabase与PostgreSQL数据库优化指南，提升数据库性能[17] - **azure-cost-optimization**: 提供Azure成本优化规则，帮助企业节省云服务开支[18] - **cloudflare/skills**: 提供Cloudflare Workers与边缘计算的最佳实践[19] - **redis/agent-skills**: 涵盖Redis高级使用模式与反模式，包括缓存、向量、流等[20] - **vercel-composition-patterns**: 提供React组合模式最佳实践，与`vercel-react-best-practices`配合使用[21] - **vercel-react-native-skills**: React Native官方最佳实践[22] - **sleek-design-mobile-apps**: 简洁现代移动App设计指南[23] - **ui-skills**: 提供极致UI组件与交互最佳实践，能生成设计师级别的界面[24] - **pdf**: 提供PDF生成、解析和处理的全套能力[25] - **seo-audit**: 提供网站SEO全面审计与优化建议[26] - **skill-creator**: 教导用户和智能体如何创建新的Skills，实现技能自给自足[27] - **code-review-expert**: 像资深工程师一样审查代码，涵盖SOLID原则、安全、性能等维度[29]

Agent Skills

AI Agent

find-skills

vercel-react-best-practices

frontend-design

web-design-guidelines

Agent Skills

AI Agent

find-skills

vercel-react-best-practices

frontend-design

web-design-guidelines

YC总裁转发、登顶Hacker News：SkillsBench揭开Agent技能扩展的残酷真相

机器之心· 2026-03-06 19:07

SkillsBench论文的核心发现与影响 - 一篇名为《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》的论文在AI社区引发广泛关注，揭示了Agent技能（Agent Skills）有效性的关键真相 [2] - 论文核心观点：高质量、人工构建的Agent Skills能显著提升AI智能体的任务成功率，而AI自生成的技能通常无效甚至有害，这挑战了“Agent自我进化”的流行叙事 [2][19][23] - 研究由来自BenchFlow、斯坦福、CMU、UC Berkeley、牛津等23家产学研机构的36位学者联合撰写，并集结了105位领域专家共同贡献，确保了研究的权威性与广泛性 [2] Agent Skills的定义与生态现状 - Agent Skills是一种在推理时动态增强LLM Agent的结构化程序性知识包，由指令文件加可选的可执行资源组成 [5] - 与传统的System Prompts、RAG和Tool Documentation有本质区别，Skills是目前唯一同时具备模块化复用、程序性指导、可执行资源和跨模型可移植性的增强方式 [5] - Skills生态正在经历野蛮生长，研究团队聚合到高达47,150个去重后的独立Skills [6] - 在136天的时间跨度内，社区创建的Skills累计总量攀升至84,192个，日均新增810个，单日新增峰值高达18,904个 [8] - Skills已从单一平台特性演变为跨生态行业标准，Anthropic的Claude Code率先定义规范，Google的Gemini CLI、OpenAI的Codex CLI以及OpenClaw等平台均已跟进支持 [8][34] SkillsBench的研究设计与评估方法 - 研究设计拒绝使用“LLM-as-judge”模式，打造了最严苛的测试场 [14] - 基准构建阶段从三大来源聚合了47,150个去重Skills，并由105位贡献者提交了322个候选任务 [14] - 经过自动化检查与105位领域专家的人工审核，最终筛选出86个高质量任务（84个参评），覆盖软件工程、金融、医疗、制造等11个领域 [14][18] - 评估在Docker容器中跨3种条件（无Skills、人工构建Skills、AI自生成Skills）、3种商用Agent平台（Claude Code, Gemini CLI, Codex CLI）及7种模型配置进行，通过代码级确定性验证产出了7,308条运行轨迹 [14][15] 核心发现一：人工构建Skills带来显著性能飞跃 - 注入专家人工构建的Skills后，Agent的平均成功率从24.3%跃升至40.6%，获得了+16.2个百分点的绝对提升 [20] - Claude Code + Opus 4.5组合获得了最大的性能增益（+23.3pp），反映了Claude Code对Agent Skills规范的原生优化 [20] - Gemini CLI + Gemini 3 Flash达到了最高的绝对性能（48.7%） [20] - Gemini 3 Flash通过迭代探索弥补推理深度，每任务消耗输入Token是Pro的2.3倍（1.08M vs 0.47M），但凭借4倍低的单价，每任务成本反而低44%（$0.55 vs $0.98） [21] 核心发现二：AI自生成Skills无效甚至有害 - 依赖AI自生成的Skills不仅毫无益处，反而导致平均成功率下降1.3个百分点，直接挑战了“Agent自我进化”的叙事 [23] - GPT-5.2下滑最为严重（-5.6pp），仅有Opus 4.6展现出极其微弱的正向收益（+1.4pp） [23] - 失败模式包括：模型生成的程序不精确或不完整；对于高专业壁垒任务，模型无法意识到自身知识缺乏，盲目采用通用方法试错 [24][27] 核心发现三：Skills的杠杆效应存在显著领域差异 - 大模型预训练数据覆盖越薄弱的垂直领域，Skills带来的杠杆效应越大 [24][26] - 医疗和制造领域因蕴含大量非公开的业务流规范，收益极为惊人，分别达到+51.9pp和+41.9pp的绝对提升 [25][26] - 软件工程（+4.5pp）和数学（+6.0pp）领域的收益微乎其微，因为顶级LLM已在海量代码和数学公式上得到充分训练 [25][26] 核心发现四：小模型搭配高质量Skills可超越大模型 - 在性能-成本的帕累托前沿上，Skills的加持将整条曲线显著上移 [29] - Claude Haiku 4.5搭配Skills的通过率达到27.7%，反超了处于无Skills状态的旗舰模型Claude Opus 4.5（22.0%），而两者API推理成本相差数十倍 [29] - Gemini 3 Flash搭配Skills以低44%的成本达到了全场最高的48.7%通过率 [29] 工程最佳实践与战略启示 - 2-3个Skills是性能甜点区，提供2-3个Skills时性能提升达到峰值（+18.6pp）；当强行塞入4个以上时，由于上下文干扰与认知过载，收益骤降至+5.9pp [31][32] - Skills的格式设计至关重要：采用Detailed（步骤详尽且聚焦）格式能带来+18.8pp的提升，而Comprehensive（详尽无遗）的长文档反而会导致性能退化（-2.9pp） [32][33] - 最优策略已从“选最强的模型”转变为“选最适配的Skills + Harness组合” [34] - 在算力受限的背景下，“小模型 + 高质量垂直Skills”为工业制造和医疗等场景提供了极具性价比的解决方案 [35] - 未来AI应用的护城河在于将行业的“暗知识”与复杂的业务SOP，精准转化为标准化的Agent Skills [36]

刚刚，一个2.6万亿AI独角兽诞生，英伟达微软押注，马斯克急了

36氪· 2026-02-13 10:28

融资与估值 - 公司完成300亿美元G轮融资，投后估值达3800亿美元 [1] - 本轮融资由安大略省教师退休基金会和Coatue联合领投，其他联合领投方包括D. E. Shaw Ventures、Dragoneer、Founders Fund、ICONIQ和MGX [4] - 重要投资者包括黑石集团、高盛另类投资旗下成长股权部门、摩根大通、红杉资本、淡马锡等 [4] - 本轮融资包含此前已公布的英伟达和微软的投资，英伟达承诺投资100亿美元，微软承诺投资50亿美元 [5] 财务与商业化表现 - 公司年化经常性收入已达140亿美元，在过去三年中每年平均增长超10倍 [1] - 年消费超10万美元的Claude客户数量在过去一年增长7倍 [6] - 年度支出超百万美元的客户数量已突破500家，两年前仅有十余家 [6] - 财富10强企业中有8家现为Claude客户 [6] 核心产品Claude Code表现 - Claude Code年化经常性收入已超25亿美元，自2026年初以来增幅翻倍 [6] - Claude Code的每周活跃用户数自2026年1月1日以来实现翻番 [6] - 全球GitHub公共提交中的代码有4%由Claude Code生成，该比例是一个月前的2倍 [6] - Claude Code的企业订阅量自2026年初增长了4倍，企业使用贡献已超总营收半数 [6] 模型与产品技术进展 - 公司发布旗舰模型Claude Opus 4.6，是首款开启100万token上下文窗口测试功能的旗舰级模型，在长上下文查询、推理、规划等能力上有所提升 [7] - Claude系列模型已从3.7版本迭代至4.5版本，编程能力、Agent能力明显提升 [7] - Claude是唯一在Amazon Web Services Bedrock、Google Cloud Vertex AI、Microsoft Azure Foundry三大全球云平台同时可用的AI模型 [2] - 公司推出Agent Skills开放标准，试图定义Agent赛道的开放生态 [10] - 公司推出了Claude Code的图形化UI版本Cowork，使非技术背景人员也能使用其Agent能力 [10] 资金用途与公司发展 - 本次融资资金将用于前沿研究、产品开发及基础设施扩建 [2] - 公司在基础设施层面多元化布局，横跨AWS Trainium、谷歌TPU、英伟达GPU [11] - 公司正在为IPO做准备，最早可能在2026年进行，已聘请律师事务所并接触多家投行 [10]

微软(HK:04338)

Artificial Intelligence

Agent Skills

Artificial Intelligence

Claude

Claude Code

Claude Opus 4.6

Artificial Intelligence

Agent Skills

Artificial Intelligence

Claude

Claude Code

Claude Opus 4.6

打破学科壁垒！400篇参考文献重磅综述，统一调查「人脑×Agent」记忆系统

具身智能之心· 2026-01-11 11:02

文章核心观点 - 一篇由哈工大、鹏城实验室、新加坡国立、复旦、北大联合发布的综述《AI Meets Brain: A Unified Survey on Memory System from Cognitive Neuroscience to Autonomous Agents》首次系统性地将人脑记忆机制与人工智能代理（Agent）的记忆统一审视，旨在为设计真正“类人”的Agent记忆系统奠定理论基石[2] - 该综述横跨认知神经科学与人工智能两大领域，涉猎相关文献共400篇，旨在打破学科壁垒，推动Agent记忆系统的发展[3] 记忆的定义与剖析 - **认知神经科学角度**：记忆是连接过去经验与未来决策的认知桥梁，分为两个阶段：第一阶段快速形成并整合新信息的神经表征，第二阶段对存储的表征进行巩固或检索[6] - **LLM视角**：大语言模型的记忆表现为三种形式：参数记忆（内化在神经网络权重中的知识）、工作记忆（基于上下文窗口的实时推理）和显式外部记忆（如RAG）[7] - **Agent视角**：Agent的记忆是一个动态的认知架构，超越了简单的存储，其核心维度包括结构化存储（将非结构化交互转换为机器可理解的格式）和动态调度（模拟人脑的遗忘与唤醒机制，解决有限注意力与大量存储间的冲突）[7] 记忆的作用 - 在LLM驱动的Agent中，记忆系统充当关键主动组件，旨在实现三大核心作用：突破上下文窗口的限制、构建长期个性化画像、驱动基于经验的推理[10][12] 记忆的分类学 - **基于认知神经科学的分类**：人脑记忆分为短期记忆（临时工作台，容量约4～9个单位信息）和长期记忆（永久档案馆，无严格容量限制）；长期记忆进一步分为情景记忆（对个人亲身经历事件的记忆）和语义记忆（对事实、概念和规则的记忆）[15][21] - **Agent的双维度记忆分类**： - **基于性质的分类**：直接对齐人脑，分为情景记忆（存储完整的交互轨迹，提供“How to”的过程性知识）和语义记忆（存储Agent的知识库，提供“What-is”的陈述性知识）[17][20][22] - **基于范围的分类**：分为轨迹内记忆（临时工作区，仅当前任务有效）和跨轨迹记忆（永久存储库，跨越多个任务和生命周期）[17][23][27] 记忆的存储机制 - **认知神经科学中的记忆存储**： - **短期记忆**：存储位置分布在感觉皮层和额顶网络，存储形式包括持续活动和活动-沉默突触连接[28] - **长期记忆**：存储位置涉及海马体（作为索引）和新皮层（作为永久仓库），存储形式包括事件单元和认知地图[28] - **Agent中的记忆存储**：是显式的工程构建，存储位置包括上下文窗口（对应轨迹内记忆）和外挂的记忆库（对应跨轨迹记忆）；存储形式包括文本、图结构、参数和隐式表示（高维向量）[31][35] 记忆的管理系统 - **认知神经科学**：记忆管理是一个动态循环，包括记忆形成（编码、巩固、整合）、记忆更新（以预测误差为核心驱动力）和记忆检索（重构性，伴随再巩固过程）[33][34][38][39] - **Agent记忆管理**：形成一个由记忆提取、更新、检索和应用组成的精密闭环[33][38] - **记忆提取**：分为扁平提取、分层提取和生成式提取[41] - **记忆更新**：分为轨迹内更新（如实时过滤噪声）和跨轨迹更新（如引入遗忘机制）[41] - **记忆检索**：分为基于相似度的检索和多因素检索（考虑时间、重要性等因素）[41] - **记忆应用**：分为上下文利用、参数内化等方式[41] Agent记忆系统评测 - 现有的评测基准主要分为两类： - **面向语义的基准**：评估Agent如何构建、维护和利用其内部记忆中的信息状态，例如LoCoMo、MemoryBank等[42][44] - **面向情景的基准**：评估复杂下游应用场景中Agent记忆系统的实际性能增益，例如WebArena、ScienceWorld等[42][44] Agent记忆的安全 - **主要攻击方式**： - **窃取攻击**：利用精心设计的Prompt诱导Agent泄露长期记忆中存储的敏感信息[47] - **投毒攻击**：向记忆库中注入恶意数据以植入后门或进行认知污染，改变Agent行为或使其判断力退化[47] - **防御策略**：包括检索防御（在读取前清洗）、响应防御（在生成回答时监控拦截）和隐私防御（对敏感数据进行匿名化处理）[46][54] 未来展望 - **多模态记忆**：未来的记忆系统需要是全模态的，统一存储与表示文本、图像、音频和视频等多模态信息，使Agent能真正理解物理世界[49][55] - **Agent Skills**：提出“Agent Skills”概念，将指令集、可执行脚本等封装为结构化单元，旨在解决不同Agent间记忆难以移植重用的问题，并探索跨Agent的skills转移和适应机制[50][55]