Claude 的秘密：AI 聪不聪明，取决于你给它什么工具

公司产品与战略 - Claude近期推出可直接创建和编辑Excel、文档、PPT及PDF等主流办公文件的新功能，拓展了AI在实际任务中的应用场景[1] - 公司目标是将AI从"聊天机器人"转变为能解决实际问题的强大伙伴，并曾推出artifact等小而美的客户端工具[1] - 公司分享了其在开发和优化智能体工具方面的经验与方法论[2] 智能体工具设计核心原则 - 转变思维：为不确定的、会推理的AI设计直观易用的工具，而非像传统编程那样只考虑输入输出[3] - 评估驱动：使用真实且复杂的任务进行系统性评估以验证工具效能，评估场景需接近真实世界才能发现真正问题[4] - 少即是多：构建能处理多步骤任务的整合工作流工具，而非提供零散API功能，以减轻AI推理负担[5] - 精心设计描述：工具的名称、描述和参数定义是AI理解其用途的唯一途径，清晰准确的描述能显著提升工具调用成功率[6] 工具开发与优化流程 - 开发流程包括构建原型、运行全面评估、与Claude Code协作自动提升工具性能[11] - 快速搭建工具原型并在本地测试，可借助Claude Code编写工具并连接本地MCP服务器或桌面扩展进行测试[17][18] - 生成大量基于现实世界用途的评估任务，避免过于简单的"沙盒"环境，优秀任务可能需要多达数十次工具调用[24] - 通过程序化方式运行评估，建议收集准确率、总运行时间、工具调用次数、总Token消耗量及工具错误等指标[29] - 分析评估结果时需观察智能体在何处遇到困难，通读推理和反馈以识别不顺手之处，并分析工具调用指标[31] 高效工具的具体设计策略 - 构建少数精心设计的工具针对特定高影响力工作流程，而非简单封装现有API功能[36][37] - 通过命名空间将相关工具按共同前缀分组，帮助在大量工具间划定界限并影响工具使用评估[41] - 工具响应应优先返回高信息量信号，避免低级别技术标识符，将任意UUID解析为更具语义意义的语言可显著提高检索任务精确度[42] - 对可能占用大量上下文的工具响应实施分页、范围选择、过滤或截断组合，并设置合理默认参数值，如Claude Code默认将工具响应限制在25,000个Token[48] - 对工具描述和规范进行提示工程是最有效的改进方法之一，即使微小改进也能带来显著性能提升，例如Claude Sonnet 3.5在SWE-bench Verified评估中取得最先进性能[52]