SkillsBench - 财报，业绩电话会，研报，新闻

SkillsBench

搜索文档

YC总裁转发、登顶Hacker News：SkillsBench揭开Agent技能扩展的残酷真相

机器之心· 2026-03-06 19:07

SkillsBench论文的核心发现与影响 - 一篇名为《SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks》的论文在AI社区引发广泛关注，揭示了Agent技能（Agent Skills）有效性的关键真相 [2] - 论文核心观点：高质量、人工构建的Agent Skills能显著提升AI智能体的任务成功率，而AI自生成的技能通常无效甚至有害，这挑战了“Agent自我进化”的流行叙事 [2][19][23] - 研究由来自BenchFlow、斯坦福、CMU、UC Berkeley、牛津等23家产学研机构的36位学者联合撰写，并集结了105位领域专家共同贡献，确保了研究的权威性与广泛性 [2] Agent Skills的定义与生态现状 - Agent Skills是一种在推理时动态增强LLM Agent的结构化程序性知识包，由指令文件加可选的可执行资源组成 [5] - 与传统的System Prompts、RAG和Tool Documentation有本质区别，Skills是目前唯一同时具备模块化复用、程序性指导、可执行资源和跨模型可移植性的增强方式 [5] - Skills生态正在经历野蛮生长，研究团队聚合到高达47,150个去重后的独立Skills [6] - 在136天的时间跨度内，社区创建的Skills累计总量攀升至84,192个，日均新增810个，单日新增峰值高达18,904个 [8] - Skills已从单一平台特性演变为跨生态行业标准，Anthropic的Claude Code率先定义规范，Google的Gemini CLI、OpenAI的Codex CLI以及OpenClaw等平台均已跟进支持 [8][34] SkillsBench的研究设计与评估方法 - 研究设计拒绝使用“LLM-as-judge”模式，打造了最严苛的测试场 [14] - 基准构建阶段从三大来源聚合了47,150个去重Skills，并由105位贡献者提交了322个候选任务 [14] - 经过自动化检查与105位领域专家的人工审核，最终筛选出86个高质量任务（84个参评），覆盖软件工程、金融、医疗、制造等11个领域 [14][18] - 评估在Docker容器中跨3种条件（无Skills、人工构建Skills、AI自生成Skills）、3种商用Agent平台（Claude Code, Gemini CLI, Codex CLI）及7种模型配置进行，通过代码级确定性验证产出了7,308条运行轨迹 [14][15] 核心发现一：人工构建Skills带来显著性能飞跃 - 注入专家人工构建的Skills后，Agent的平均成功率从24.3%跃升至40.6%，获得了+16.2个百分点的绝对提升 [20] - Claude Code + Opus 4.5组合获得了最大的性能增益（+23.3pp），反映了Claude Code对Agent Skills规范的原生优化 [20] - Gemini CLI + Gemini 3 Flash达到了最高的绝对性能（48.7%） [20] - Gemini 3 Flash通过迭代探索弥补推理深度，每任务消耗输入Token是Pro的2.3倍（1.08M vs 0.47M），但凭借4倍低的单价，每任务成本反而低44%（$0.55 vs $0.98） [21] 核心发现二：AI自生成Skills无效甚至有害 - 依赖AI自生成的Skills不仅毫无益处，反而导致平均成功率下降1.3个百分点，直接挑战了“Agent自我进化”的叙事 [23] - GPT-5.2下滑最为严重（-5.6pp），仅有Opus 4.6展现出极其微弱的正向收益（+1.4pp） [23] - 失败模式包括：模型生成的程序不精确或不完整；对于高专业壁垒任务，模型无法意识到自身知识缺乏，盲目采用通用方法试错 [24][27] 核心发现三：Skills的杠杆效应存在显著领域差异 - 大模型预训练数据覆盖越薄弱的垂直领域，Skills带来的杠杆效应越大 [24][26] - 医疗和制造领域因蕴含大量非公开的业务流规范，收益极为惊人，分别达到+51.9pp和+41.9pp的绝对提升 [25][26] - 软件工程（+4.5pp）和数学（+6.0pp）领域的收益微乎其微，因为顶级LLM已在海量代码和数学公式上得到充分训练 [25][26] 核心发现四：小模型搭配高质量Skills可超越大模型 - 在性能-成本的帕累托前沿上，Skills的加持将整条曲线显著上移 [29] - Claude Haiku 4.5搭配Skills的通过率达到27.7%，反超了处于无Skills状态的旗舰模型Claude Opus 4.5（22.0%），而两者API推理成本相差数十倍 [29] - Gemini 3 Flash搭配Skills以低44%的成本达到了全场最高的48.7%通过率 [29] 工程最佳实践与战略启示 - 2-3个Skills是性能甜点区，提供2-3个Skills时性能提升达到峰值（+18.6pp）；当强行塞入4个以上时，由于上下文干扰与认知过载，收益骤降至+5.9pp [31][32] - Skills的格式设计至关重要：采用Detailed（步骤详尽且聚焦）格式能带来+18.8pp的提升，而Comprehensive（详尽无遗）的长文档反而会导致性能退化（-2.9pp） [32][33] - 最优策略已从“选最强的模型”转变为“选最适配的Skills + Harness组合” [34] - 在算力受限的背景下，“小模型 + 高质量垂直Skills”为工业制造和医疗等场景提供了极具性价比的解决方案 [35] - 未来AI应用的护城河在于将行业的“暗知识”与复杂的业务SOP，精准转化为标准化的Agent Skills [36]