OpenClaw大考！上海AI Lab InternLM团队WildClawBench 60题，把「龙虾」AI打回原形

WildClawBench评测基准的推出 - 上海人工智能实验室InternLM团队推出了一个名为WildClawBench的全新AI Agent评测基准，旨在填补当前评测体系的空白[6] - 该基准不再关注碎片化的单次函数调用正确率，而是通过模拟真实、复杂的多模态多步骤任务，对AI的端到端闭环交付能力进行实战检验[5][6] - 基准将AI Agent置于一个名为OpenClaw的真实助手环境中，该环境配备完整的工具集，如浏览器、终端、文件系统、日历，以模拟真实用户场景[9] 评测基准的设计与内容 - 基准包含60道手工原创设计的任务，覆盖中英双语，分布在6个不同类别中[9] - 每项任务在独立的Docker容器中运行，评分用的标准答案和脚本在执行结束后才注入，从根本上杜绝了数据泄露，确保评测结果的真实性[9][10] - 任务类别包括：生产力流程（10题）、代码智能（12题）、社交互动（6题）、搜索检索（11题）、创意合成（11题）和安全对齐（10题）[11][17][18][19][22][25] - 任务设计高度复杂且贴近真实工作，例如要求AI逐篇阅读并分析arXiv论文的详细内容、在没有文档的情况下理解代码仓库并运行推理、处理多轮社交沟通、交叉验证矛盾信息、根据视频制作宣传材料以及识别隐藏的安全风险等[12][13][17][18][19][22][25] 主要模型评测结果 - 截至2026年4月1日，该基准已评测了14个前沿模型，结果显示整体表现天花板较低，排名第一的Claude Opus 4.6模型总体得分仅为51.6%[3][27][28] - 在成本效率方面差异显著，Claude Opus 4.6单次运行平均成本超过80美元，而得分50.3%的GPT-5.4成本约为20美元，智谱AI的GLM 5模型成本仅为11.39美元[28][29] - 国产模型表现突出，在14个参评模型中有9个来自中国团队，智谱AI的GLM 5以42.6%的得分位列总榜第三，是唯一进入前三的国产模型，其成本不到Claude Opus 4.6的七分之一[29] - 小米的MiMo V2 Pro模型以40.2%的得分排名第五，超过了Google DeepMind的Gemini 3.1 Pro模型，显示出国产模型在AI Agent端到端能力上的快速追赶[29] 基准的社区与开源价值 - 该基准设有一个“个人OpenClaw排行榜”，允许用户提交自己定制化训练的AI助手（被称为“龙虾”）进行评测，从而帮助社区理解哪些技能组合、人格设定和记忆策略能有效提升任务完成率[32][33][34] - WildClawBench项目采用MIT开源协议，全部60道任务的定义、评分代码、Docker镜像和数据集均已公开，并提供了任务模板，鼓励社区按照统一格式贡献新任务[15][35][36][37] - 该基准为衡量AI Agent在真实复杂任务中的能力提供了一把“刻度清晰的尺子”，当前最强模型的得分仍不足60%，表明行业距离开发出真正可靠的AI助手仍有距离[38]