OpenClaw大考!上海AI Lab InternLM团队WildClawBench 60题,把「龙虾」AI打回原形
机器之心·2026-04-11 11:25

WildClawBench评测基准的推出 - 上海人工智能实验室InternLM团队推出了一个名为WildClawBench的全新AI Agent评测基准,旨在填补当前评测体系的空白[6] - 该基准不再关注碎片化的单次函数调用正确率,而是通过模拟真实、复杂的多模态多步骤任务,对AI的端到端闭环交付能力进行实战检验[5][6] - 基准将AI Agent置于一个名为OpenClaw的真实助手环境中,该环境配备完整的工具集,如浏览器、终端、文件系统、日历,以模拟真实用户场景[9] 评测基准的设计与内容 - 基准包含60道手工原创设计的任务,覆盖中英双语,分布在6个不同类别中[9] - 每项任务在独立的Docker容器中运行,评分用的标准答案和脚本在执行结束后才注入,从根本上杜绝了数据泄露,确保评测结果的真实性[9][10] - 任务类别包括:生产力流程(10题)、代码智能(12题)、社交互动(6题)、搜索检索(11题)、创意合成(11题)和安全对齐(10题)[11][17][18][19][22][25] - 任务设计高度复杂且贴近真实工作,例如要求AI逐篇阅读并分析arXiv论文的详细内容、在没有文档的情况下理解代码仓库并运行推理、处理多轮社交沟通、交叉验证矛盾信息、根据视频制作宣传材料以及识别隐藏的安全风险等[12][13][17][18][19][22][25] 主要模型评测结果 - 截至2026年4月1日,该基准已评测了14个前沿模型,结果显示整体表现天花板较低,排名第一的Claude Opus 4.6模型总体得分仅为51.6%[3][27][28] - 在成本效率方面差异显著,Claude Opus 4.6单次运行平均成本超过80美元,而得分50.3%的GPT-5.4成本约为20美元,智谱AI的GLM 5模型成本仅为11.39美元[28][29] - 国产模型表现突出,在14个参评模型中有9个来自中国团队,智谱AI的GLM 5以42.6%的得分位列总榜第三,是唯一进入前三的国产模型,其成本不到Claude Opus 4.6的七分之一[29] - 小米的MiMo V2 Pro模型以40.2%的得分排名第五,超过了Google DeepMind的Gemini 3.1 Pro模型,显示出国产模型在AI Agent端到端能力上的快速追赶[29] 基准的社区与开源价值 - 该基准设有一个“个人OpenClaw排行榜”,允许用户提交自己定制化训练的AI助手(被称为“龙虾”)进行评测,从而帮助社区理解哪些技能组合、人格设定和记忆策略能有效提升任务完成率[32][33][34] - WildClawBench项目采用MIT开源协议,全部60道任务的定义、评分代码、Docker镜像和数据集均已公开,并提供了任务模板,鼓励社区按照统一格式贡献新任务[15][35][36][37] - 该基准为衡量AI Agent在真实复杂任务中的能力提供了一把“刻度清晰的尺子”,当前最强模型的得分仍不足60%,表明行业距离开发出真正可靠的AI助手仍有距离[38]

OpenClaw大考!上海AI Lab InternLM团队WildClawBench 60题,把「龙虾」AI打回原形 - Reportify