Agent能力测试
搜索文档
龙虾最佳适配模型,OpenClaw之父给出了推荐
量子位· 2026-03-09 12:13
PinchBench榜单概况 - 榜单名为PinchBench,是专为评估大模型对OpenClaw适配程度而设计的实时更新评测工具,从成功率、速度和价格三个核心维度进行排名[1][3][6] - 该榜单由一家名为Kilo AI的Agent基础设施创业团队推出,并非传统大厂的标准基准测试[22][25] - PinchBench的评测定位更接近“Agent能力测试”,侧重于评估模型在包含约23个真实任务的工作流中的执行能力,而非传统的知识问答或数学推理[25][26] 中国模型在榜单中的表现 - 在成功率方面,国产模型表现突出:榜单中成功率排名第二和第三的分别是MiniMax M2.1 (93.6%) 和Kimi K2.5 (93.4%),仅次于第一名谷歌Gemini 3 Flash (95.1%)[7][11] - 在速度方面,国产模型MiniMax M2.5以105.96秒的最佳时间位列榜首,超越了谷歌Gemini 2.0 Flash (106.05秒) 和Meta Llama 3.1 70B (106.14秒) 等国际模型[10][12] - 在价格方面,国产模型与国际领先模型相比缺乏优势:最具性价比的模型是OpenAI的GPT-5-nano,输入价格低至0.05美元/百万tokens;而国产模型中最便宜的MiniMax M2.1,输入价格约为0.3美元/百万tokens,输出价格约为1.2美元/百万tokens,平均价格约为前者的3倍[14][15][16] - 综合成功率和价格的最佳平衡点分析显示,在表现不错的8个模型中,有4个是中国模型[18][20] 评测机制与行业洞察 - PinchBench的评分机制结合了自动化检查和LLM评审:部分任务通过脚本自动检查结果,另一部分任务则由LLM Judge来评判质量[29] - 该评测揭示了一个重要行业现象:在面向真实任务流程的评估中,更大的模型并非总是表现更好,那些针对Agent优化或推理效率更高的模型排名可能更靠前[31] - PinchBench是一个完全开源的工具,用户可以在平台上自行运行或添加新任务进行测试[33]