Agent能力测试 - 财报，业绩电话会，研报，新闻

Agent能力测试

搜索文档

量子位· 2026-03-09 12:13

PinchBench榜单概况 - 榜单名为PinchBench，是专为评估大模型对OpenClaw适配程度而设计的实时更新评测工具，从成功率、速度和价格三个核心维度进行排名[1][3][6] - 该榜单由一家名为Kilo AI的Agent基础设施创业团队推出，并非传统大厂的标准基准测试[22][25] - PinchBench的评测定位更接近“Agent能力测试”，侧重于评估模型在包含约23个真实任务的工作流中的执行能力，而非传统的知识问答或数学推理[25][26] 中国模型在榜单中的表现 - 在成功率方面，国产模型表现突出：榜单中成功率排名第二和第三的分别是MiniMax M2.1 (93.6%) 和Kimi K2.5 (93.4%)，仅次于第一名谷歌Gemini 3 Flash (95.1%)[7][11] - 在速度方面，国产模型MiniMax M2.5以105.96秒的最佳时间位列榜首，超越了谷歌Gemini 2.0 Flash (106.05秒) 和Meta Llama 3.1 70B (106.14秒) 等国际模型[10][12] - 在价格方面，国产模型与国际领先模型相比缺乏优势：最具性价比的模型是OpenAI的GPT-5-nano，输入价格低至0.05美元/百万tokens；而国产模型中最便宜的MiniMax M2.1，输入价格约为0.3美元/百万tokens，输出价格约为1.2美元/百万tokens，平均价格约为前者的3倍[14][15][16] - 综合成功率和价格的最佳平衡点分析显示，在表现不错的8个模型中，有4个是中国模型[18][20] 评测机制与行业洞察 - PinchBench的评分机制结合了自动化检查和LLM评审：部分任务通过脚本自动检查结果，另一部分任务则由LLM Judge来评判质量[29] - 该评测揭示了一个重要行业现象：在面向真实任务流程的评估中，更大的模型并非总是表现更好，那些针对Agent优化或推理效率更高的模型排名可能更靠前[31] - PinchBench是一个完全开源的工具，用户可以在平台上自行运行或添加新任务进行测试[33]

大模型适配

Agent能力测试

Artificial Intelligence

Artificial Intelligence

PinchBench

Gemini 3 Flash

MiniMax M2.5