TerminalWorld
搜索文档
不靠专家出题,8万条人类终端录像,炼成首个真实CLI工作流基准TerminalWorld
机器之心· 2026-06-22 12:34
TerminalWorld基准的构建与核心价值 - 研究团队推出了首个完全基于真实人类终端轨迹、自动构建且能持续更新的终端Agent评测基准TerminalWorld [1] - 该基准从80,870条开发者自愿上传的真实终端录像出发,通过自动逆向工程构建出1,530个真实终端任务,覆盖18个真实工作流类别和1,280个独特命令工具 [2][12] - 基准设计的核心直觉是:AI应该按照人类真实的工作方式来接受考核,真实世界的操作轨迹是测评的最佳原材料 [6][7] 现有基准的局限性 - 现有终端Agent基准(如Terminal-Bench)主要依赖领域专家手工出题,存在两个盲区 [8] - 盲区一:题目不够真实,专家偏爱刁钻、对抗性的谜题,与工程师每日的真实工作流存在差距,导致榜单高分未必代表真实世界的工作能力 [8] - 盲区二:基准会过时,手工基准是静态快照,无法跟上工具、命令和工作流的快速演变,导致无法准确评估模型使用最新工具的能力 [8] TerminalWorld的数据来源与处理流程 - 数据来源于asciinema平台,该平台保存了开发者自愿分享的终端会话结构化文本录像,包含带时间戳的用户输入和系统输出 [12] - 研究团队通过一条四阶段流水线将原始录像转化为可评测任务 [16] - 第一阶段:从80,870条原始录像中,经过隐私过滤、CLI筛选、质量打分等步骤,筛选出9,492条高质量录像 [16] - 第二阶段:利用大模型从录像文本转录本中提炼出任务指令(只说目标)和干净可跑的参考解答 [16] - 第三阶段:通过Agent逆向推断依赖并构建Docker镜像,为5,035个任务复现出可执行环境 [17] - 第四阶段:通过生成测试并设置三道验证关卡(AllPassing, Nop, Partial),最终淬炼出1,530个经自动验证的任务作为完整基准 [18][22] TerminalWorld基准的关键特征 - 基准包含1,530个任务,覆盖系统管理、容器编排、云基础设施、安全、CI/CD等18个真实场景,其中容器编排、云基础设施、CI/CD是过往专家基准严重缺席的部分 [23] - 任务难度跨度大,既有简单日常操作,也有超过50步的复杂工作流,真实反映了开发的常态 [23] - 覆盖1,280个不同的命令工具,其中高达91%在Terminal-Bench中从未出现过,真实还原了开发者工具箱的丰富程度 [23] - 基准具有“活性”,其数据引擎全自动,可随源源不断的新录像而更新,是一个“活性基准”,这是任何手工基准都无法做到的 [24] 在TerminalWorld上评测AI Agent的关键发现 - 发现一:最强模型在真实终端任务上也只是勉强及格,所有测试模型的平均通过率仅为54.8%,表现最好的Claude Opus 4.7通过率为62.5%,即在超过三分之一的任务上失败 [26] - 发现二:开源模型表现出色,Kimi K2.6和GLM 5.1的通过率分别为57.5%和57.0%,逼近甚至反超部分闭源模型,且平均成本仅约17美元,不到闭源模型(约71美元)的零头,性价比高出4到8倍 [26] - 发现三:任务成功率和消耗的轮数、token量呈负相关(相关系数分别为-0.49和-0.62),失败的尝试消耗了不成比例的资源,占总成本的63% [27] - 发现四:模型能力严重偏科,在环境配置(平均通过率87.5%)、软件构建与测试(78.1%)上表现好,但在性能优化(28.1%)、脚本自动化(39.1%)、调试与测试(39.3%)上集体表现不佳,且没有全能模型 [28][30] - 发现五:专家基准的高分无法迁移到真实场景,模型在Terminal-Bench和TerminalWorld上的得分相关性低至0.20,在Terminal-Bench上得分57%至82.7%的模型,在TerminalWorld上全部跌至49%至62.5% [31][33] - 发现六:Agent与人类解决同一问题的路径差异巨大,命令集重叠度的中位数仅为21.4%,表明Agent常采用与人类完全不同的方法达成相同目标 [33][35]