TerminalWorld - 财报，业绩电话会，研报，新闻

TerminalWorld

搜索文档

不靠专家出题，8万条人类终端录像，炼成首个真实CLI工作流基准TerminalWorld

机器之心· 2026-06-22 12:34

TerminalWorld基准的构建与核心价值 - 研究团队推出了首个完全基于真实人类终端轨迹、自动构建且能持续更新的终端Agent评测基准TerminalWorld [1] - 该基准从80,870条开发者自愿上传的真实终端录像出发，通过自动逆向工程构建出1,530个真实终端任务，覆盖18个真实工作流类别和1,280个独特命令工具 [2][12] - 基准设计的核心直觉是：AI应该按照人类真实的工作方式来接受考核，真实世界的操作轨迹是测评的最佳原材料 [6][7] 现有基准的局限性 - 现有终端Agent基准（如Terminal-Bench）主要依赖领域专家手工出题，存在两个盲区 [8] - 盲区一：题目不够真实，专家偏爱刁钻、对抗性的谜题，与工程师每日的真实工作流存在差距，导致榜单高分未必代表真实世界的工作能力 [8] - 盲区二：基准会过时，手工基准是静态快照，无法跟上工具、命令和工作流的快速演变，导致无法准确评估模型使用最新工具的能力 [8] TerminalWorld的数据来源与处理流程 - 数据来源于asciinema平台，该平台保存了开发者自愿分享的终端会话结构化文本录像，包含带时间戳的用户输入和系统输出 [12] - 研究团队通过一条四阶段流水线将原始录像转化为可评测任务 [16] - 第一阶段：从80,870条原始录像中，经过隐私过滤、CLI筛选、质量打分等步骤，筛选出9,492条高质量录像 [16] - 第二阶段：利用大模型从录像文本转录本中提炼出任务指令（只说目标）和干净可跑的参考解答 [16] - 第三阶段：通过Agent逆向推断依赖并构建Docker镜像，为5,035个任务复现出可执行环境 [17] - 第四阶段：通过生成测试并设置三道验证关卡（AllPassing, Nop, Partial），最终淬炼出1,530个经自动验证的任务作为完整基准 [18][22] TerminalWorld基准的关键特征 - 基准包含1,530个任务，覆盖系统管理、容器编排、云基础设施、安全、CI/CD等18个真实场景，其中容器编排、云基础设施、CI/CD是过往专家基准严重缺席的部分 [23] - 任务难度跨度大，既有简单日常操作，也有超过50步的复杂工作流，真实反映了开发的常态 [23] - 覆盖1,280个不同的命令工具，其中高达91%在Terminal-Bench中从未出现过，真实还原了开发者工具箱的丰富程度 [23] - 基准具有“活性”，其数据引擎全自动，可随源源不断的新录像而更新，是一个“活性基准”，这是任何手工基准都无法做到的 [24] 在TerminalWorld上评测AI Agent的关键发现 - 发现一：最强模型在真实终端任务上也只是勉强及格，所有测试模型的平均通过率仅为54.8%，表现最好的Claude Opus 4.7通过率为62.5%，即在超过三分之一的任务上失败 [26] - 发现二：开源模型表现出色，Kimi K2.6和GLM 5.1的通过率分别为57.5%和57.0%，逼近甚至反超部分闭源模型，且平均成本仅约17美元，不到闭源模型（约71美元）的零头，性价比高出4到8倍 [26] - 发现三：任务成功率和消耗的轮数、token量呈负相关（相关系数分别为-0.49和-0.62），失败的尝试消耗了不成比例的资源，占总成本的63% [27] - 发现四：模型能力严重偏科，在环境配置（平均通过率87.5%）、软件构建与测试（78.1%）上表现好，但在性能优化（28.1%）、脚本自动化（39.1%）、调试与测试（39.3%）上集体表现不佳，且没有全能模型 [28][30] - 发现五：专家基准的高分无法迁移到真实场景，模型在Terminal-Bench和TerminalWorld上的得分相关性低至0.20，在Terminal-Bench上得分57%至82.7%的模型，在TerminalWorld上全部跌至49%至62.5% [31][33] - 发现六：Agent与人类解决同一问题的路径差异巨大，命令集重叠度的中位数仅为21.4%，表明Agent常采用与人类完全不同的方法达成相同目标 [33][35]