Workflow
AI智能体工具开发
icon
搜索文档
Claude 官方发文:如何给 Agent 构建一个好用的工具?
Founder Park· 2025-09-12 18:06
Claude新功能与AI工具开发方法论 - Claude新增创建和编辑Excel、文档、PPT、PDF等主流办公文件功能 拓展AI在实际任务中的应用场景[2] - Anthropic目标是将AI从"聊天机器人"转变为解决实际问题的强大伙伴 曾推出artifact等小而美的客户端工具[2] AI智能体工具设计核心原则 - 转变思维 为不确定的、会推理的AI设计直观易用工具 而非传统编程只考虑输入输出[4] - 评估驱动 用真实且复杂的任务系统性验证工具效果 评估场景需接近真实世界[5] - 少即是多 构建整合工作流的强大工具而非零散API功能 减轻AI推理负担[6] - 精心设计描述 工具名称、描述和参数定义是AI理解用途的唯一途径 清晰准确描述提升调用成功率[7] 工具定义与智能体协作 - 工具是确定性系统与非确定性智能体之间的新型软件契约 需重新设计方法而非简单封装API[15] - 开发流程包括快速搭建原型、全面评估、与Claude Code协作自动优化工具性能[16] - 通过本地MCP服务器或桌面扩展连接测试工具 可直接传入Anthropic API进行程序化测试[19][20] 评估体系构建方法 - 生成基于现实世界用途的评估任务 避免简单"沙盒"环境 优秀任务需多达数十次工具调用[24] - 评估任务示例包括安排会议、处理客户投诉、准备客户挽留方案等复杂场景[26] - 通过程序化运行评估 收集准确率、运行时间、工具调用次数、Token消耗量等多维度指标[29] 高效工具设计原则 - 选择合适工具 构建少数精心设计工具针对高影响力工作流 而非简单封装现有API[37] - 使用命名空间划分工具功能界限 按服务或资源分组 帮助智能体选择正确工具[40] - 返回有意义的上下文 优先考虑相关性而非灵活性 避免低级技术标识符[43] - 优化Token效率 实施分页、过滤、截断 默认限制工具响应在25,000个Token内[48] - 精心设计工具描述 明确输入输出参数 微小改进可显著提升性能[52] 未来发展方向 - 软件开发实践需从确定性模式转向非确定性模式 适应智能体特性[54] - 通过迭代式、评估驱动过程确保工具随智能体进化 适应MCP协议和基础模型升级[54]
Claude 的秘密:AI 聪不聪明,取决于你给它什么工具 | Jinqiu Select
锦秋集· 2025-09-12 16:48
公司产品与战略 - Claude近期推出可直接创建和编辑Excel、文档、PPT及PDF等主流办公文件的新功能,拓展了AI在实际任务中的应用场景[1] - 公司目标是将AI从"聊天机器人"转变为能解决实际问题的强大伙伴,并曾推出artifact等小而美的客户端工具[1] - 公司分享了其在开发和优化智能体工具方面的经验与方法论[2] 智能体工具设计核心原则 - 转变思维:为不确定的、会推理的AI设计直观易用的工具,而非像传统编程那样只考虑输入输出[3] - 评估驱动:使用真实且复杂的任务进行系统性评估以验证工具效能,评估场景需接近真实世界才能发现真正问题[4] - 少即是多:构建能处理多步骤任务的整合工作流工具,而非提供零散API功能,以减轻AI推理负担[5] - 精心设计描述:工具的名称、描述和参数定义是AI理解其用途的唯一途径,清晰准确的描述能显著提升工具调用成功率[6] 工具开发与优化流程 - 开发流程包括构建原型、运行全面评估、与Claude Code协作自动提升工具性能[11] - 快速搭建工具原型并在本地测试,可借助Claude Code编写工具并连接本地MCP服务器或桌面扩展进行测试[17][18] - 生成大量基于现实世界用途的评估任务,避免过于简单的"沙盒"环境,优秀任务可能需要多达数十次工具调用[24] - 通过程序化方式运行评估,建议收集准确率、总运行时间、工具调用次数、总Token消耗量及工具错误等指标[29] - 分析评估结果时需观察智能体在何处遇到困难,通读推理和反馈以识别不顺手之处,并分析工具调用指标[31] 高效工具的具体设计策略 - 构建少数精心设计的工具针对特定高影响力工作流程,而非简单封装现有API功能[36][37] - 通过命名空间将相关工具按共同前缀分组,帮助在大量工具间划定界限并影响工具使用评估[41] - 工具响应应优先返回高信息量信号,避免低级别技术标识符,将任意UUID解析为更具语义意义的语言可显著提高检索任务精确度[42] - 对可能占用大量上下文的工具响应实施分页、范围选择、过滤或截断组合,并设置合理默认参数值,如Claude Code默认将工具响应限制在25,000个Token[48] - 对工具描述和规范进行提示工程是最有效的改进方法之一,即使微小改进也能带来显著性能提升,例如Claude Sonnet 3.5在SWE-bench Verified评估中取得最先进性能[52]