AI Agent
搜索文档
速递|开源Agent Hermes超车OpenClaw:Agent进入自学技能竞争
Z Potentials· 2026-06-22 14:41
开源AI Agent竞争格局 - 在开源AI Agent软件OpenClaw取得巨大成功后,市场出现了模仿者,其中一些在关键指标上正迅速追赶[2] - 来自Nous Research的智能体工具Hermes,其近30天在GitHub上的新增贡献者数量已超越OpenClaw,该指标是衡量开发者活跃度的重要依据[2] - 如果OpenClaw难以从实验性项目转型为稳定可靠的正式软件,包括Hermes、英伟达的NemoClaw、Genspark Claw在内的同类竞品将获得更大的市场机遇[2] Hermes产品核心特性 - Hermes与OpenClaw一样,是运行在用户设备本地的AI Agent软件,能够自动化执行电脑上的多种任务,例如编写代码、搜索商品、发送电子邮件或WhatsApp消息等[3] - Hermes的核心区别在于其具备自主学习能力,能够随时间推移学习用户最常要求的任务[3] - 该能力通过自动编写“skill”(类似操作指南的文档)实现,当Agent完成涉及超过五次以上“工具调用”的复杂任务,或在多次尝试失败后找到可行解决方案时,系统会自动生成这些指令[3] - 相比之下,OpenClaw等其他Agent系统需要用户自行编写这些skill[3][4] 公司背景与融资 - Hermes的开发商Nous Research自2023年成立以来,已从Paradigm、OSS Capital和Distributed Global等投资方获得7000万美元融资[4]
DeepSeek缺Agent人才缺疯了!负责人各种贴广告
量子位· 2026-06-22 13:52
Jay 发自 凹非寺 量子位 | 公众号 QbitAI DeepSeek好缺Agent人才啊…… 刚刚,Harness部门负责人崔添翼再次在线直聘: Har nes s部门空缺较大,速来! 这次一口气放出来的岗位有三个。 缺人缺疯了,崔添翼说:自己每天都在面试, 以及各种地方贴小广告。 执行力MAX的网友们,已经在评论区毛遂自荐了。 Harness研究员(实习全职均可) Harness工程师(全职实习均可) Harness产品经理(限全职) 甚至有人表示,如果DeepSeek需要,可以割爱将自家大将送过来。 真·Boss直聘。 崔添翼Boss直聘 正式开始前,我们也再简单补充下Harness是什么。 打个比方,如果Agent是汽车,模型是发动机,那Harness就是方向盘、变速箱、刹车…… 也可以理解为驯马,想做一个Agent产品,模型之外的所有工作,都是在铸造Harness这块马鞍。 用公式表示就是: Model+Harness =A gent。 而DeepSeek这次招的,是三类不同的「驯鲸师」。 这次最新披露了一个叫「研究员」的岗位。 让我们一起来看看JD—— 「Harness研究员」,核心任务:探索H ...
不靠专家出题,8万条人类终端录像,炼成首个真实CLI工作流基准TerminalWorld
机器之心· 2026-06-22 12:34
TerminalWorld基准的构建与核心价值 - 研究团队推出了首个完全基于真实人类终端轨迹、自动构建且能持续更新的终端Agent评测基准TerminalWorld [1] - 该基准从80,870条开发者自愿上传的真实终端录像出发,通过自动逆向工程构建出1,530个真实终端任务,覆盖18个真实工作流类别和1,280个独特命令工具 [2][12] - 基准设计的核心直觉是:AI应该按照人类真实的工作方式来接受考核,真实世界的操作轨迹是测评的最佳原材料 [6][7] 现有基准的局限性 - 现有终端Agent基准(如Terminal-Bench)主要依赖领域专家手工出题,存在两个盲区 [8] - 盲区一:题目不够真实,专家偏爱刁钻、对抗性的谜题,与工程师每日的真实工作流存在差距,导致榜单高分未必代表真实世界的工作能力 [8] - 盲区二:基准会过时,手工基准是静态快照,无法跟上工具、命令和工作流的快速演变,导致无法准确评估模型使用最新工具的能力 [8] TerminalWorld的数据来源与处理流程 - 数据来源于asciinema平台,该平台保存了开发者自愿分享的终端会话结构化文本录像,包含带时间戳的用户输入和系统输出 [12] - 研究团队通过一条四阶段流水线将原始录像转化为可评测任务 [16] - 第一阶段:从80,870条原始录像中,经过隐私过滤、CLI筛选、质量打分等步骤,筛选出9,492条高质量录像 [16] - 第二阶段:利用大模型从录像文本转录本中提炼出任务指令(只说目标)和干净可跑的参考解答 [16] - 第三阶段:通过Agent逆向推断依赖并构建Docker镜像,为5,035个任务复现出可执行环境 [17] - 第四阶段:通过生成测试并设置三道验证关卡(AllPassing, Nop, Partial),最终淬炼出1,530个经自动验证的任务作为完整基准 [18][22] TerminalWorld基准的关键特征 - 基准包含1,530个任务,覆盖系统管理、容器编排、云基础设施、安全、CI/CD等18个真实场景,其中容器编排、云基础设施、CI/CD是过往专家基准严重缺席的部分 [23] - 任务难度跨度大,既有简单日常操作,也有超过50步的复杂工作流,真实反映了开发的常态 [23] - 覆盖1,280个不同的命令工具,其中高达91%在Terminal-Bench中从未出现过,真实还原了开发者工具箱的丰富程度 [23] - 基准具有“活性”,其数据引擎全自动,可随源源不断的新录像而更新,是一个“活性基准”,这是任何手工基准都无法做到的 [24] 在TerminalWorld上评测AI Agent的关键发现 - 发现一:最强模型在真实终端任务上也只是勉强及格,所有测试模型的平均通过率仅为54.8%,表现最好的Claude Opus 4.7通过率为62.5%,即在超过三分之一的任务上失败 [26] - 发现二:开源模型表现出色,Kimi K2.6和GLM 5.1的通过率分别为57.5%和57.0%,逼近甚至反超部分闭源模型,且平均成本仅约17美元,不到闭源模型(约71美元)的零头,性价比高出4到8倍 [26] - 发现三:任务成功率和消耗的轮数、token量呈负相关(相关系数分别为-0.49和-0.62),失败的尝试消耗了不成比例的资源,占总成本的63% [27] - 发现四:模型能力严重偏科,在环境配置(平均通过率87.5%)、软件构建与测试(78.1%)上表现好,但在性能优化(28.1%)、脚本自动化(39.1%)、调试与测试(39.3%)上集体表现不佳,且没有全能模型 [28][30] - 发现五:专家基准的高分无法迁移到真实场景,模型在Terminal-Bench和TerminalWorld上的得分相关性低至0.20,在Terminal-Bench上得分57%至82.7%的模型,在TerminalWorld上全部跌至49%至62.5% [31][33] - 发现六:Agent与人类解决同一问题的路径差异巨大,命令集重叠度的中位数仅为21.4%,表明Agent常采用与人类完全不同的方法达成相同目标 [33][35]
花钱雇AI当同事,我的生意怎么样了?
投中网· 2026-06-22 12:16
文章核心观点 - 数字员工(AI Agent)正从科幻概念转变为现实的工作方式,在多个行业和职业中落地,帮助从业者提升效率、降低成本并改变工作模式[4][5] - 通过五个具体案例展示了数字员工在法律、跨境电商、投资、创业及媒体等领域的实际应用场景、成本效益和当前局限性[5][6] 行业应用与成本效益 - **法律行业**:律师通过编写45个特定技能(Skill)训练AI Agent,使其能自动抓取新闻、归档材料、进行法律检索并输出法律文书初稿,将律师业务的工作时间压缩至20%[7][9][12] - **跨境电商**:商家用四个数字员工替代了三个离职员工(美工、运营、客服),将团队月固定成本从近5万元人民币大幅降低至约4000元人民币的AI订阅与API费用[16][17][19] - **风险投资行业**:投资经理利用AI Agent在夜间自动进行公司研究、总结路演、管理日程及初筛商业计划书,平均每月AI开销在1000美元以内,估计可解决80%以上的工作,成本不到其收入的10%[24][26][28][29] - **创业领域**:创始人将AI工具作为不同角色的“数字员工”(如顾问、工程师、设计师),以每月约1000元人民币的成本,支撑了复杂商业网站的搭建与运维,突破了个人能力天花板[30][31][33][34] - **媒体行业**:记者每月花费1000至1500元人民币使用AI工具,将其作为实习生、编辑和老师,处理访谈整理、稿件润色和降低理解门槛等任务,将精力集中于更重要的观察与思考[36][37][38][40][41] 实施策略与关键认知 - **实施路径**:建议从特定、细小的场景切入,将个人方法论沉淀为技能,获得正反馈后再串联多个技能以解决更复杂问题,避免一开始追求全自动化[13][21][35] - **人机协作定位**:AI目前主要承担信息处理、初稿生成、重复性任务等执行工作,但在专业判断、商业决策、品牌表达及责任相关领域仍需人类主导和最终审核[10][19][22][29][34] - **能力依赖**:数字员工的有效性高度依赖于使用者提供的清晰规则、结构化工作拆解及个人“上下文”的沉淀,其效果与使用者的专业判断力正相关[12][14][21][22][35][41] - **工具与成本**:广泛使用的工具包括Claude、Cursor、Codex以及国内产品如WorkBuddy,个人月度成本集中在1000至1500元人民币或1000美元左右的区间[11][19][28][34][40]
告别「单科专家」:首个Agent全面进化框架EEVEE发布
机器之心· 2026-06-22 09:00
文章核心观点 - 由上海交通大学与普林斯顿大学研究团队发布的EEVEE框架,旨在解决LLM智能体在真实世界部署中面临的核心挑战:即如何在面对不断变化的、多类型任务输入时,能够持续适应并稳定提升,而非仅在单一任务上优化[3][11] - EEVEE是一个面向LLM智能体的测试时提示学习框架,其核心创新在于将提示学习从“单一任务优化”推向更接近真实部署的多任务混合场景,让智能体能够组织经验、避免任务间干扰,从而实现全方位进化[3][30][48] - EEVEE通过“先分流,再用专门提示推理”的机制,维护多个专门化提示,并采用路由器与提示协同进化的方法,使智能体能够在任务不断增加时保持正向的性能累积提升,最终在全部任务加入后达到约+42的累计提升[15][24][29] 技术原理与机制 - **核心思路**:EEVEE不再让所有任务共享一个提示,而是维护多个专门化提示,并引入路由器来为输入任务分配合适的提示进行推理[24] - **协同进化**:EEVEE采用路由器与提示协同进化的方法,通过不断循环优化路由器和各个专门化提示,使任务划分更清晰,提示更专门化,从而有效组织经验[29] - **成本控制**:EEVEE的性能提升并非通过无限扩展上下文实现,其平均每个测试样本仅使用4.32K tokens,接近高效基线GEPA的3.47K,远低于ACE的21.30K[38][39] 性能表现与实验结果 - **多任务累积提升**:当任务类型依次增加时,EEVEE能够保持正向的性能累积提升,在任务全部加入后达到约+42的累计提升,而其他基线方法的收益可能停止叠加甚至变为负数[15][16] - **跨模型有效性**:EEVEE在不同骨干模型上均带来明显提升。在Qwen3-4B-Instruct上,平均分从41.37提升至51.75,相对提升约25%;在DeepSeek-V3.2上,平均分从39.75提升至64.07,相对提升约61%;相比现有先进的提示学习方法,最高相对提升达到48.2%[20][21] - **单任务能力保持**:EEVEE并未牺牲单任务性能,在单独进行提示学习时,例如在Formula任务上达到55.25分,在HumanEval任务上达到73.17分,TheoremQA任务从14.73提升至25.27[33][34] 应用场景与意义 - **解决现实痛点**:真实部署中的智能体需要处理代码生成、金融公式计算、科学问题回答等不同类型且不断变化的任务组合,单一提示容易导致不同任务经验互相冲突[9][10][17] - **迈向全方位进化**:EEVEE的意义在于推动智能体从针对固定任务的“单科提分”,转向在复杂、多样、动态的真实任务流中实现“全科成长”和持续适应[46][48][50] - **能力边界**:提示学习擅长将反馈转化为可复用的做事方式、格式和策略,但对于模型本身缺失的关键领域知识,单靠提示学习不一定能解决[41]
AI的第一个泡沫,是程序员
虎嗅APP· 2026-06-22 08:07
AI Token消耗现状与泡沫分析 - 2025年至2026年初,科技巨头为保持AI竞赛领先,曾指令工程团队不计成本使用最先进模型,导致企业预算失控,出现团队数月耗尽全年AI预算、收到巨额账单的极端案例[6] - 当前科技巨头的AI使用重心已从“盲目追求模型能力”转向“成本审计”和“财务红线设置”,许多企业正在测试针对Token使用的精细化运营制度[7] - 美国三大模型公司的投资方是云计算厂商,以Token代金券形式投资,大模型又将其用于采购投资方的云计算服务,代金券缺乏价格信号,对消费形成过度激励[7] - 当前Token泡沫源于AI编程生产率提升过快,同时价格信号机制暂时失灵,导致“编程供给”阶段过剩,一个团队一周可完成过去一个月的编程量[8] - 根据调查,超过85%的职业开发者在日常工作中高频使用Cursor、Claude Code、GitHub Copilot等工具[10] AI编程的本质转变与市场影响 - 大量Claude Code或Cursor的调用在后台分析中被归类为“代码生成”,但实际执行的任务可能与传统编程无关,如自动化处理发票、抓取网页数据、总结个人知识库等[13] - 代码正从商业世界里可交付的“最终产品”,变成一种执行任务的“中间语言”[14] - 生成式AI的革命性进步在于可以自动化处理非结构化数据(如人类自然语言),这过去需要编写专门的数据管道代码才能完成[15] - AI Agent并非仅将编程行业AI化,而是“侵蚀”各个行业,以前需要一个软件工程团队才能做的自动化系统,现在个人通过AI代理在几分钟内就能搭建[15] - “编程”正变成一种像文字处理或数学运算一样的基础通用能力[16] - 过去只有“标准化大规模需求”才值得软件化,现在“个性化细分需求”也有软件化的价值,这将创造一个前所未有的蓝海市场[17][18] AI驱动的“长尾革命”与商业模式变革 - 当编程成本大大下降,“个性化细分需求”也可以被软件化后,大量新需求将被释放,这在经济学上叫“供给曲线向右移动”[23] - Agent时代的长尾是个性软件需求,极低的开发成本使得为小众群体提供可持续收费的个性化功能成为可能,且越个性化的需求价格接受度越高[25] - 传统软件赚的是规模经济的钱,Agent赚的是个性化的钱[26] - Agent的核心单位是“任务”,这是一种完全不同的商业模式,任务本身可以按token进行收费,这改造了传统软件生态[26] - 软件正在进行MCP改造,把核心功能封装为一套标准的指令集,使其成为Agent可随时调用的能力模块[26] - Agent不再是一个软件,而是一种新的软件分发方式[26] - AI让原本99%因为不经济而没有被软件化的需求,第一次具备了被软件化的可能,其结果要么可收费,要么在各行各业提升工作效率或降低成本[27] - 其结果就是,出现一个比今天整个软件行业规模还要大10倍、100倍的AI Agent行业[28] AI泡沫的发展阶段与潜在破灭 - 技术革命中途必然产生多次泡沫,泡沫是技术革命的融资方式[8] - 第一类泡沫是技术本身的成熟度不够,没有找到合适的需求和商业模式,属于产业层面的泡沫;第二类泡沫是资本的预期超过了商业应用的增长程度,属于资本市场的泡沫[9] - 目前AI仍然处于第一阶段的泡沫期,重点在于产业层面,具体是AI编程是否已经达到了渗透率的高点[10] - AI编程成为第一个杀手级应用场景的真正原因在于核心用户的使用深度,一个Cursor用户一天可能消耗几十万到几百万token,而普通ChatGPT用户一天仅几千到几万token[31] - 在纯粹的“Token消耗量”统计中,纯职业开发者的工程交付目前仍占据60% - 70%的份额,而渗透率已提升到85%[31] - 企业控制AI预算的第一步是削减非AI的IT预算,第二步是控制在非AI业务上的投资,第三步是裁掉AI可以替代的人员[31] - 第一步已发生,导致科技行业内部传统软件和互联网被“杀逻辑”;第二步正在发生,导致非AI传统行业被“杀估值”;如果出现第三步,宏观需求被冲击,将是大部分行业的“杀业绩”[32] - AI大量使用债券融资,推升了信用债利率,融资成本提升利空大部分非AI行业的投资与需求[32] - 非AI的预算压缩到极致后,企业会回头优化AI预期,对token价格的打击会先于流量打击,这对ARR增长的叙事非常致命[33] - 未来一两年内可能出现第一次AI泡沫的破灭,既是产业泡沫也是资本泡沫的破灭,将导致大量初创AI企业破产合并、科技巨头资本开支推迟取消、大模型估值极度缩水[33] - 跌幅最重的将是算力链公司,其估值高度取决于科技巨头的资本开支,又处于激烈的市场竞争和技术迭代中[33]