Software Development
搜索文档
EPAM Systems: AI Threat Is Becoming Real (Rating Downgrade) (NYSE:EPAM)
Seeking Alpha· 2026-06-22 21:15
文章核心观点 - 软件开发公司EPAM Systems, Inc. 面临日益不确定的处境 人工智能的兴起对其构成生存威胁 行业势头放缓表明人工智能使用量的激增实际上是一个不利因素而非助力 [1] 作者背景与分析方法 - 作者为专注于小盘股投资的活跃投资者 拥有美国、加拿大和欧洲市场的投资经验 [1] - 其投资理念是通过理解公司财务背后的驱动因素来识别错误定价的证券 最终通常通过贴现现金流模型估值来揭示 该方法不拘泥于传统的价值、股息或增长投资 而是综合考虑股票的所有前景以确定风险回报 [1]
Anthropic's engineering leader says Claude Code is making programmers lonelier
Business Insider· 2026-06-22 17:39
行业趋势:AI编程工具对工程师工作模式的影响 - AI代理的广泛使用导致工程师工作体验趋于孤立,Anthropic的Claude Code团队发现,工程师过度依赖AI代理后,工作可能变得孤独 [1] - 为应对此问题,团队通过组织编程午餐、黑客马拉松和共享的“创造者时间”等活动,旨在恢复协作,让工程师在邻近工作中学习彼此的AI工作流程 [1] 产品采用与市场地位 - Claude Code已成为软件开发中最常用的产品之一,在一项针对超过24位创始人和风险投资人的调查中,Claude Code被认定为初创公司内部占主导地位的AI编码工具 [2] - 部分创始人表示,Claude Code已成为他们处理复杂工程工作的默认工具 [2] 工程师角色与工作内容的演变 - 工程师现在将更多时间用于指导AI代理、审查输出以及协调并行任务 [3] - “氛围编码”的兴起,即人们使用自然语言提示和构建软件,使得非技术背景的创始人也能在不雇用传统工程团队的情况下创建定制工具,从而催生了“单人创业者” [3] 协作的重要性与学习机会 - 尽管存在AI导致的孤立趋势,但许多创始人坚信协作的价值 [3] - 团队专注于创造更多让工程师并肩工作的机会,即使他们使用AI的方式各异 [4] - 通过观察他人工作,工程师能够相互学习,例如在结对编程中,工程师从彼此差异化的Claude Cowork使用流程中学到很多 [2][4]
不靠专家出题,8万条人类终端录像,炼成首个真实CLI工作流基准TerminalWorld
机器之心· 2026-06-22 12:34
TerminalWorld基准的构建与核心价值 - 研究团队推出了首个完全基于真实人类终端轨迹、自动构建且能持续更新的终端Agent评测基准TerminalWorld [1] - 该基准从80,870条开发者自愿上传的真实终端录像出发,通过自动逆向工程构建出1,530个真实终端任务,覆盖18个真实工作流类别和1,280个独特命令工具 [2][12] - 基准设计的核心直觉是:AI应该按照人类真实的工作方式来接受考核,真实世界的操作轨迹是测评的最佳原材料 [6][7] 现有基准的局限性 - 现有终端Agent基准(如Terminal-Bench)主要依赖领域专家手工出题,存在两个盲区 [8] - 盲区一:题目不够真实,专家偏爱刁钻、对抗性的谜题,与工程师每日的真实工作流存在差距,导致榜单高分未必代表真实世界的工作能力 [8] - 盲区二:基准会过时,手工基准是静态快照,无法跟上工具、命令和工作流的快速演变,导致无法准确评估模型使用最新工具的能力 [8] TerminalWorld的数据来源与处理流程 - 数据来源于asciinema平台,该平台保存了开发者自愿分享的终端会话结构化文本录像,包含带时间戳的用户输入和系统输出 [12] - 研究团队通过一条四阶段流水线将原始录像转化为可评测任务 [16] - 第一阶段:从80,870条原始录像中,经过隐私过滤、CLI筛选、质量打分等步骤,筛选出9,492条高质量录像 [16] - 第二阶段:利用大模型从录像文本转录本中提炼出任务指令(只说目标)和干净可跑的参考解答 [16] - 第三阶段:通过Agent逆向推断依赖并构建Docker镜像,为5,035个任务复现出可执行环境 [17] - 第四阶段:通过生成测试并设置三道验证关卡(AllPassing, Nop, Partial),最终淬炼出1,530个经自动验证的任务作为完整基准 [18][22] TerminalWorld基准的关键特征 - 基准包含1,530个任务,覆盖系统管理、容器编排、云基础设施、安全、CI/CD等18个真实场景,其中容器编排、云基础设施、CI/CD是过往专家基准严重缺席的部分 [23] - 任务难度跨度大,既有简单日常操作,也有超过50步的复杂工作流,真实反映了开发的常态 [23] - 覆盖1,280个不同的命令工具,其中高达91%在Terminal-Bench中从未出现过,真实还原了开发者工具箱的丰富程度 [23] - 基准具有“活性”,其数据引擎全自动,可随源源不断的新录像而更新,是一个“活性基准”,这是任何手工基准都无法做到的 [24] 在TerminalWorld上评测AI Agent的关键发现 - 发现一:最强模型在真实终端任务上也只是勉强及格,所有测试模型的平均通过率仅为54.8%,表现最好的Claude Opus 4.7通过率为62.5%,即在超过三分之一的任务上失败 [26] - 发现二:开源模型表现出色,Kimi K2.6和GLM 5.1的通过率分别为57.5%和57.0%,逼近甚至反超部分闭源模型,且平均成本仅约17美元,不到闭源模型(约71美元)的零头,性价比高出4到8倍 [26] - 发现三:任务成功率和消耗的轮数、token量呈负相关(相关系数分别为-0.49和-0.62),失败的尝试消耗了不成比例的资源,占总成本的63% [27] - 发现四:模型能力严重偏科,在环境配置(平均通过率87.5%)、软件构建与测试(78.1%)上表现好,但在性能优化(28.1%)、脚本自动化(39.1%)、调试与测试(39.3%)上集体表现不佳,且没有全能模型 [28][30] - 发现五:专家基准的高分无法迁移到真实场景,模型在Terminal-Bench和TerminalWorld上的得分相关性低至0.20,在Terminal-Bench上得分57%至82.7%的模型,在TerminalWorld上全部跌至49%至62.5% [31][33] - 发现六:Agent与人类解决同一问题的路径差异巨大,命令集重叠度的中位数仅为21.4%,表明Agent常采用与人类完全不同的方法达成相同目标 [33][35]