Workflow
Harness Engineering
icon
搜索文档
AI编程的“作坊时代”即将终结!Google Cloud全套企业级“驾驭工程”底座,正在重构开发者的一切
AI科技大本营· 2026-04-24 07:54
文章核心观点 - Google Cloud通过一场马拉松规划与模拟的演示,系统性地展示了其构建企业级多智能体(Agent)平台所需的全套基础设施与工程范式,旨在解决将AI智能体从概念验证(Demo)落地到复杂生产环境时所面临的核心工程挑战[59] - 公司认为,软件开发正从传统的“Cloud Native”工程范式向“Agent Native”或“驾驭工程(Harness Engineering)”范式转变,其核心是为能够自主决策、协同工作的智能体网络提供生产级的管理、编排、观测与安全能力[60][61] 平台架构与核心组件 - Google Cloud为企业级智能体平台提供了一张完整的架构图,涵盖从开发套件(ADK)、运行时(Agent Runtime)、注册表(Agent Registry)到可观测性(Agent Observability)和安全网关(Agent Gateway)等模块[8][9] - 模型上下文协议(MCP)作为关键标准,使平台能够为智能体与外部工具(如Google Maps)建立安全的标准化连接,极大简化了集成工作[9][15] - 智能体注册表(Agent Registry)充当多智能体网络的“DNS解析中心”,智能体通过暴露“智能体卡片”声明能力,并通过A2A协议自动发现和对话,从而将系统内部耦合度降至最低[24][26] 智能体开发与协作模式 - 开发模式从编写线性逻辑转变为定义模块化的“技能”,并通过智能体设计器进行配置,例如为规划师智能体挂载地图技能、GIS技能和从历史文档转化的“赛事总监技能”[15][16] - 面对复杂任务,应采用多智能体协同架构,将单体应用拆解为各司其职的智能体团队,例如演示中构建了规划师、评估师和模拟器三个独立智能体进行分工协作[19][20][21] - 评估师智能体职责纯粹,仅对规划师的结果进行严苛打分;模拟器智能体则利用Gemini Deep Research学习到的现实世界人类跑步行为模式,在沙盒中生成成千上万个独立的跑者会话来模拟交通影响[23] 状态、记忆与知识管理 - 通过引入“智能体平台会话”和全托管的“记忆库”服务,解决了智能体像“金鱼”一样每次对话失忆的问题,使智能体能在时间轴上保持状态并积累结构化的长期经验[30][33] - 通过数据工程智能体自动处理非结构化地方法规文档,并利用AlloyDB数据库的内置自动嵌入功能生成向量,构建了完整的RAG闭环,使智能体具备了精准的地方性知识[34][36][37] 运维、排障与基础设施自治 - 当多智能体系统因复杂级联调用崩溃时,传统的单步调试失效,需依赖“智能体可观测性”控制台进行链路追踪,并借助“Gemini Cloud Assist”这类诊断智能体进行根因分析[39][41][42] - Cloud Assist不仅能诊断出应用层问题(如因未及时压缩事件导致上下文Token超过100万个限制),还能直接在IDE中提供带修复参数的代码差异对比视图,并自动提交触发CI/CD流程[42][43][45] - 智能体的能力可超越应用层,直接重构底层基础设施,例如通过自然语言指令,让Cloud Assist将服务从Cloud Run迁移至GKE,并自动优化存储方案和模型推理服务器配置[49][50][52] 低代码集成与跨团队协作 - 平台通过统一的Agent Registry,打破了高代码(开发者用Python编写)与无代码(业务人员通过自然语言生成)智能体之间的壁垒,使它们能基于暴露的能力接口在同一网络中协同工作[54][57][58] - 演示中,用无代码方式生成的“供应链智能体”与高代码开发的“规划师智能体”通过相互@调用,共同制定出了包含物资放置点的最终计划,实现了业务与工程团队的高效协作[57][58] 工程范式转变的意义 - 公司指出,依赖手写胶水代码、硬编码API对接、在Prompt中强塞历史记录的“小作坊时代”即将过去,开发者需要从“实现者”转变为“编排者”[26][61] - 通过提供完整的智能体家族产品,Google Cloud将“驾驭工程”从概念框架转化为一套可产品化的工程实践,旨在实现“知道、行动、反馈”的闭环,为开发者构建下一代复杂AI系统提供了底座和脚手架[60][61][62]
全模态望成新周期下关键竞争点-高效率筑基长程竞争能力
2026-04-21 08:51
纪要涉及的行业或公司 * 主要涉及人工智能(AI)模型公司,特别是**MiniMax**,并提及**智谱**、**OpenAI**、**Gemini**、**Anthropic**等作为比较对象[1][3] * 同时讨论了**网络安全行业**的前景[1][12] 核心观点与论据 一、 关于AI模型公司估值与市场情绪 * **MiniMax存在显著估值折价**:当前市值约2,800亿港币,较智谱(4,300亿港币)存在显著折价,而模型能力领先是核心定价因素[1][3] * **模型迭代是核心估值催化剂**:新版本模型发布是股价80%-90%估值支撑的核心催化剂[1][2] * **模型迭代周期加速**:从2025年的6个月缩短至2026年的2个月,意味着更频繁的催化剂[2] * **市场对短期担忧的钝化**:地缘冲突等外部事件影响正在淡化[2] * **筹码结构依然健康**:尽管面临解禁,但因股价处于高位,原始股东卖出量可能较小,且全球长线基金的参与维持了筹码稀缺性[2] 二、 MiniMax的核心竞争优势 * **全模态(Full-modality)布局领先**:全模态是下一阶段核心叙事,MiniMax规划了文本模型M3和视频生成模型海螺03,并实现双向赋能[1][3][4] * M3是类似Gemini 3的全模态模型,能综合理解、推理多种模态信息[3] * 海螺03是视频版NanoBand,其实现需要强大全模态模型作为主干,技术门槛高[3] * 双向赋能:M3为高质量视频生成提供理解基础;海螺03生成的数据可反哺M3训练[4] * **组织效率与商业化能力占优**: * 组织精简,人均产出效率高[4] * 在算力紧缺环境下,具备强大的境内外算力获取与调配能力(如与Fireworks AI合作),能提供更稳定、SLA更优的API服务[4] * 模型设计精巧,以更小参数量实现同级性能,毛利率有望高于行业平均,其综合API毛利率曾达69%[1][4] * **Harness Engineering与自训练能力构筑技术壁垒**: * Harness Engineering是为AI Agent运行提供完整环境的新范式,能显著提升Agent表现[5][7] * MiniMax在M2.7开发中,约70%的代码由模型自训练完成,极大提升了整体效率[1][9] * **市场表现强劲**: * M2.7模型在OpenRouter日均Token调用量超250亿[1][9] * 是OpenRouter和Hermes Agent上调用量最高的模型,在中国大模型中领先[9] 三、 产品规划与模型发展(M3/海螺03) * **M3模型具体规划**: * **性能目标**:挑战领先闭源模型,具备更强的自主规划、复杂工具调用及长程任务执行能力[6] * **多模态能力**:具备更强的原生多模态能力,统一理解和生成视觉、语音乃至视频内容[6] * **参数与效率**:参数量有望提升,同时优化激活参数以保证推理效率[6] * **价格策略**:从M2.5到M2.7延续相对低价策略,为未来提价提供空间[6] * **发布时间**:最新表述积极,称“不会太久”[6] * **海螺03**:作为视频版NanoBand,将带来从无到有的视频编辑能力,并可能带来十倍以上的市场容量扩张[3][4] 四、 关于Harness Engineering的行业讨论 * **概念演进**:是继提示词工程、上下文工程之后的新范式,关注Agent系统应如何工作[7] * **核心作用**:通过模型外部的工程化手段更好地发挥模型能力,直接影响Agent能力[7] * **业界观点分歧**: * “Big Model派”认为复杂Harness是阶段性的,未来将被更强模型取代[8] * “Big Harness派”认为模型趋同,真正壁垒在于Harness层面的构建[8] * **渐进演化观点**:模型能力与Harness协同发展,模型能力向外扩展一层,Harness也随之向外扩展一层[8][9] 五、 财务预期与行业前景 * **MiniMax 2026年收入预期**:目前预期为2.3亿美元,但存在上修空间[1][10] * **个人推测**:按ARR口径,到2026年底收入可能在5亿至10亿美元区间[1][10] * **业务增长强劲**:领先厂商的token调用量周度环比增速可达10%至20%[4] * **网络安全行业前景**: * 目前处于极端低估阶段,预期将迎来趋势性反转[1][12] * **核心逻辑**:更强大的AI模型会被用于发现更多软件漏洞,攻击手段增强将导致对防御工具的需求必然增加[12][13] * 网络安全公司(如CrossStitch)不会被取代,反而会与大模型合作[12] 其他重要内容 * **关于数据差异的解释**:ARR数据差异源于各公司定义和披露时间点不同,在算力短缺、需求井喷的背景下,无需过度担忧[2][3] * **关于“蒸馏”的澄清**:中国模型公司的领先并非仅靠“蒸馏”,这是行业内普遍存在且法理上无问题的行为,并非成功核心要素[2] * **全模态叙事契机**:当前市场热点集中在coding和Agent领域,竞争拥挤,而OpenAI和Gemini等在叙事上处于相对逆风期,为全模态叙事反转提供了契机[3] * **软件行业与AI的关系**:软件行业不会被AI吞噬,优秀的软件公司能利用AI从交付工具转向交付结果,创造十倍以上的价值量[11] * 判断标准:AI业务从第一天起就应能赚钱,每投入1美元token成本至少能赚回10美元收入[11]
“爱马仕骑马”,能否复刻龙虾热?
新财富· 2026-04-20 17:09
AI Agent 技术演进与行业现状 - 行业对AI的认知已超越聊天工具,转向能够直接编辑文件、处理多模态内容、学习长上下文的智能体(Agent)[4] - OpenClaw的出现是观念转变的关键,其通过标准化协议、低门槛、完善的Skill生态和本地优先的隐私优势,解决了传统Agent框架开发门槛高、工具兼容性差的问题,使普通人与中小企业得以落地应用[4] - 2026年3月,行业出现“百虾大战”,腾讯、阿里、字节等大厂均发布龙虾产品,旨在让Skill安全地协助工作,引爆了“龙虾热”[5] Harness Engineering(驾驭/治理工程)的兴起 - Agent能力提升后,管理Agent成为更重要的课题,OpenAI与Anthropic几乎同时提出Harness Engineering概念,其核心是从管理“新手”转向管理能在框架内完成系统任务的“老手”[8] - 行业经历了从提示词工程(Prompt Engineering)到上下文工程(Context Engineering),再到治理工程(Harness Engineering)的演进过程[9][10][12] - 治理工程旨在为Agent定义行为边界、制定工具调用规范、搭建自动化验证与错误恢复机制,构建全流程反馈闭环,以解决复杂任务中的逻辑跑偏、错误重复和安全失控问题[12] - 人类与AI的关系正从“操控与被操控”演变为“约束与自治”,核心目标与边界由人设定,具体任务执行与优化由AI在框架内自主完成[13] Hermes Agent 框架的特点与能力 - Hermes Agent由Nous Research团队开发,于2026年2月发布,其核心是具备自我进化能力,能在完成任务后自动提炼可复用的Skill[15][16] - 其自进化能力源于内置的Skills闭环系统,当完成涉及5个以上Skill调用的复杂任务后,系统会自动分析执行过程,生成结构化的Skill文件供后续直接调用,极大提升效率与成功率[17] - Skill具备自我改进能力,大约每经过15次工具调用,系统会触发回放分析,对Skill进行精准优化,避免重复错误并修正过时步骤[17] - 框架构建了四层记忆系统与两层缓存索引,解决了OpenClaw每次会话从零开始的问题,并通过常驻提示记忆、会话归档、技能文件层、用户建模层及周期性复盘机制,实现高价值上下文的筛选与历史信息的按需调取[18] - 在安全层面,通过Patch精准纠错机制与全流程安全扫描贯穿Skill生命周期,实现安全可控的自我迭代[18] - 在成本控制上,采用渐进式披露策略减少无效Token消耗,并以多模型分工模式降低推理开销[19] - 有测试显示,使用Hermes约两周后,Skill开始自动沉淀,同类任务速度提升约40%[19] - 该框架被指存在架构级抄袭,其核心自进化循环与中国团队EvoMap的开源引擎Evolver的10步流程高度对应[19] Hermes Agent 面临的商业化挑战 - 与OpenClaw催生众多成熟商业化产品不同,Hermes目前尚无成熟的开箱即用商业化产品[20][22] - 主要问题包括:Skill版本控制缺失,自动Patch机制会直接覆盖旧版且无历史快照与回滚能力,不符合企业级工程规范[23] - 安全扫描存在短板,仅依赖正则表达式检测恶意代码易被绕过,预留的LLM辅助审查接口未启用,无法通过企业级安全审计[23] - 索引匹配完全黑箱化,Skill调用全靠AI自主判断,无精准语义匹配机制,决策过程不可控,易导致技能复用失效或重复造轮子[23] - 采用单机存储,Skill与记忆无法跨设备自动同步,难以适配多设备切换与团队协作场景[24] - 尽管如此,作为一个完整实现自学习闭环的开源框架,其Skills系统为整个领域提供了极具价值的参考架构[25] 行业影响与未来展望 - 真正的智能被视为在约束中自我生长的能力,而不仅仅是写死的代码[27] - 为Agent设定规则框架并让其自我进化的思路,有助于人类与Agent更好地协作[27] - 预计经过工程优化或出现完善的行业级Harness框架后,Agent在行业中的应用场景将比当前使用Skills更加广泛和深入[27]
湘财证券晨会纪要-20260416
湘财证券· 2026-04-16 08:26
核心观点 - 报告认为 AI 工程化范式正从 Prompt Engineering、Context Engineering 演进至 Harness Engineering,这是 AI 智能体(Agent)走向解决复杂现实问题的必然选择 [4][7] - Harness Engineering 已成为 AI Agent 实现规模化落地的关键基础设施,其将与模型智能共同驱动智能体向更复杂的实际业务场景落地,并有望推动 AI 产业景气度持续上行 [7][8] - 在此趋势下,报告维持对计算机行业的“买入”评级 [8] AI 工程化范式演进 - **Prompt Engineering**:聚焦于如何与模型对话,通过添加身份设定、场景约束、输出格式等细节,引导模型精准理解任务目标,本质是意图对齐 [5] - **Context Engineering**:随着任务复杂度提升,工程重心转向高效、精准的信息供给,通过构建适配的数据、工作流程与运行环境,结合检索增强、信息压缩等技术,以最优信息填充模型运算空间 [5] - **Harness Engineering**:当基座模型能力达到临界值后,挑战在于如何让 AI 在长周期、多步骤任务中不失控。Harness 不仅包含前两阶段的提示词与上下文管理,更引入了工具调用、多 Agent 调度、物理依赖边界设定、质量管理以及全链路的反馈闭环,使 AI 行为服从于系统设定的架构约束与物理边界 [6] Harness Engineering 概念与影响 - 概念由 HashiCorp 联合创始人 Mitchell Hashimoto 于 2026 年 2 月首次提出,随后 OpenAI 和 Anthropic 等头部模型厂商在技术博客中进一步明晰和推广 [3] - OpenAI 的公开实验显示,一支初始由 3 名(后扩充至 7 名)工程师组成的团队,在 5 个月内通过 Codex Agent 生成超 100 万行生产级代码,全程无人工直接编写代码 [3] - Harness 被定义为支撑复杂 AI 智能体运行的外部框架、控制机制与编排体系,即一套完整的工程化支撑体系 [3] - 当 Harness 成为 Agent 工程化落地的关键基础设施,Agent 的能力边界将由模型智能与 Harness 共同决定 [7] - 未来,通用型 Harness 的部分功能或将被大模型内化吸收,头部模型厂商正加速向 Harness 层延伸布局,从单纯的 API 供给转向覆盖工作流编排的系统化产品形态 [7] 投资建议与核心受益方向 - **国产大模型厂商**:头部模型厂商正加速向 Harness 层延伸,由单一 API 接口供给升级为覆盖工作流编排的系统化产品体系 [9] - **垂直领域企业端 AI 软件应用厂商**:依托深厚行业知识,围绕企业级工作流、上下文管理、权限管控及结果校验构建的 Harness 能力,将具备持续核心价值 [9]
金融科技行业双周报第二十六期:金融垂类Claw发展加速,数币运营机构扩容-20260414
国泰海通证券· 2026-04-14 15:38
报告行业投资评级 - 行业评级:增持 [4] 报告核心观点 - 金融科技行业迎来新机遇,核心驱动力在于数字人民币(数币)作为关键基础设施的场景拓展,以及人工智能(AI)对金融服务全流程效率的重塑 [4][23] - 金融垂类AI(Claw)产品发展加速,竞争焦点从模型能力转向工作流编排、工具治理等工程化落地能力 [4][11] - 数字人民币运营机构扩容,将释放银行系统建设需求,并丰富支付场景 [4][7] - 第三方支付行业监管持续收紧,合规门槛提升,同时稳定币牌照落地推动跨境支付等新型支付基础设施发展 [4][14][17] 根据目录总结 1. 市场表现回顾 - 2026年3月30日至4月10日,金融科技指数(930986)收益率2.68%,同期沪深300收益率2.98%;港股金融科技指数(987032)涨跌幅3.47%,同期恒生科技指数涨跌幅1.72% [7] - 细分板块中,第三方支付板块表现突出,区间涨跌幅5.52%(A股)和3.32%(港股),主要受全球风险偏好上升及数字人民币运营机构扩容带动 [8][9] 2. 政策与行业动态 2.1 银行IT - 2026年4月2日,中国人民银行新增中信银行、光大银行、华夏银行等12家银行成为数字人民币业务运营机构,并已接入央行端系统 [11] - 运营机构扩容将提升数币服务普惠性,并有望释放银行系统升级与建设需求 [11] 2.2 金融信息服务 - **AI智能体(Claw)发展加速**:行业关注重点从模型能力延伸至Harness Engineering,强调通过工程化框架提升智能体在生产环境中的稳定性与可控性 [11] - **头部公司产品动态**: - 同花顺推出面向金融投资者的AI Skills社区“问财SkillHub”,提供全品类金融Skills [11] - 万得AI(Wind Alice)与同花顺妙想Claw均接入微信,将金融数据与AI能力嵌入移动社交工作流,推动金融终端向高频移动场景延伸 [11][12] - **监管趋严**:浙江证监局对同花顺基金销售公司采取责令改正监管措施,反映基金代销合规要求持续收紧 [14] 2.3 第三方支付 - **监管处罚与牌照管理**: - 通联支付因多项违规被警告、没收违法所得8.2万元并处罚款199.4万元 [14] - 广东汇卡商务服务有限公司支付牌照被不予续展并注销,为年内第二张被注销的支付牌照 [14] - 财付通调整商户入驻流程,新增受益所有人资料收集等要求,反洗钱监管持续收紧 [17] - **创新与牌照落地**: - 渣打香港成为香港首批推出“转数快”(FPS)跨境支付服务的银行之一,支持单笔限额100万港元 [15] - 蚂蚁国际加速布局“智能体支付”生态,为中小商户推出AI商户助理Antom Copilot [15] - 香港金管局向碇点金融科技与汇丰银行授予首批稳定币发行人牌照,聚焦P2P付款、商户支付、跨境支付及代币化投资等场景 [17] 3. 个股动态 3.1 支付与信贷AI - **拉卡拉**:发布智能终端与AI新品,未来战略围绕“合规、科技、全球化”推进 [18] - **连连数字**:深化跨境物流支付场景布局,并与澳新支付服务商Latipay达成战略合作,补强本地收付网络 [18][19] - **奇富数科**:在金融AI联盟大会展示覆盖信贷全流程的智能体矩阵,信贷AI步入规模化落地阶段 [18] 3.2 公司业绩与数币生态 - **新国都**:2025年实现营业总收入31.8亿元,归母净利润4.69亿元,同比增长100.17%;跨境支付交易额突破24亿元,成为第二增长曲线 [19] - **中银香港**:将构建数字人民币生态作为核心战略,已推动数字人民币与香港“转数快”系统互联互通 [20] - **越秀资本**:2025年营业总收入78.43亿元,归母净利润35.19亿元,同比增长53.42%;绿色领域新增投放占比达58% [21] - **ST仁东**:公告将于2026年4月14日起撤销退市风险警示 [22] 4. 投资建议 报告基于数字人民币与AI双轮驱动逻辑,推荐以下细分领域核心公司 [4][23][26]: 1. **金融IT**:看好数币升级带来的银行系统需求及大模型赋能,推荐长亮科技、宇信科技、中科软、新致软件 2. **金融信息服务**:看好智能投研、智能投顾前景,推荐九方智投控股、同花顺、东方财富 3. **第三方支付**:看好数币场景拓展带来的增量空间,推荐拉卡拉、移卡、连连数字 4. **消费金融**:看好智能客服、营销、风控场景落地,推荐易鑫集团
计算机行业周报(04.06-04.12):从Prompt Engineering到Harness Engineering-20260412
湘财证券· 2026-04-12 22:13
行业投资评级 - 维持计算机行业“买入”评级 [1][30] 报告核心观点 - 报告核心观点是AI工程化范式正经历从Prompt Engineering、Context Engineering到Harness Engineering的跃迁,Harness Engineering已成为驱动AI智能体(Agent)实现规模化、复杂化业务落地的关键基础设施 [5][9][30] - 在此趋势下,AI产业景气度有望持续上行 [9][30] 核心概念:Harness Engineering - **词源与定义**:“Harness”一词源自马术,意为“马具”,报告将其比喻为限定和引导底层大语言模型(比作野马)行为的外部框架、控制机制与编排体系,即一套完整的工程化支撑体系 [3][13][20] - **概念起源**:由HashiCorp联合创始人Mitchell Hashimoto于2026年2月首次提出,随后OpenAI和Anthropic等头部厂商通过技术博客和实践明确了该概念 [4][13] - **实践案例**:OpenAI公开实验显示,一支3-7人的工程师团队在5个月内通过Codex Agent生成了超过100万行生产级代码,全程无人工直接编写 [4][13] AI工程化范式演进路径 - **Prompt Engineering(提示词工程)**:聚焦于通过优化单次指令(如添加身份设定、场景约束)来引导模型精准理解任务,本质是意图对齐,以降低输出不确定性 [6][16][17] - **Context Engineering(上下文工程)**:随着任务复杂度提升,工程化重心转向高效管理模型的短期与长期记忆,通过检索增强、信息压缩等技术,以最优信息填充有限的上下文窗口 [6][20] - **Harness Engineering(驾驭工程)**:当模型智力达到临界值后,挑战转向如何构建能让AI在长周期、多步骤任务中持续受控运行的系统,它包含了前两阶段能力,并引入了工具调用、多Agent调度、物理边界设定、质量管理和全链路反馈闭环 [6][20] 对AI产业格局的影响 - **重塑Agent能力边界**:智能体(Agent)的能力边界将由模型智能与Harness共同决定,Harness成为其工程化落地的关键基础设施 [7][20] - **驱动产业链变革**:头部大模型厂商正加速向Harness层延伸布局,从提供单一API接口转向覆盖工作流编排的系统化产品形态 [7][9][31] - **创造垂直领域机会**:在垂直细分场景中,围绕企业级工作流、上下文管理、权限管控与结果校验构建的Harness能力具备持续价值,这为深耕垂直领域的B端软件厂商提供了重要的转型方向 [7][21][31] 市场与行业回顾 - **指数表现**:本周(报告期内)申万计算机指数下滑6.17%,在申万一级行业中排名第6位 [11][22] - **个股表现**:本周计算机行业涨幅前十的个股包括宇瞳光学、中安科、行云科技、浪潮信息、卡莱特、四方精创、君逸数码、思特奇、同有科技、宏景科技 [11][24][28] - **行业估值**:截至4月10日收盘,以PE-TTM(整体法,剔除负值)统计,申万计算机行业总体市盈率为53.2 [11][29] 投资建议与核心受益方向 - **核心受益方向一:国产大模型厂商**:头部厂商正加速向Harness层延伸,由单一API供给升级为覆盖工作流编排的系统化产品体系 [9][31] - **核心受益方向二:垂直领域企业端AI软件应用厂商**:依托深厚行业知识,构建围绕企业级工作流、上下文管理、权限管控及结果校验的Harness能力,将具备持续核心价值 [9][31]
刷榜风波惊动OpenAI后,这家中国团队拿回Agent硬核榜单第一
机器之心· 2026-04-11 17:35
文章核心观点 - 文章认为,Harness Engineering(系统编排工程)是AI智能体(Agent)领域的关键上层建筑,正成为下一代AI工程化的分水岭,其重要性可能使其成为2026年AI领域最重要的概念[1] - 文章指出,AI领域的竞争焦点正从基础模型转向框架层,而百度伐谋(Famou)智能体在权威基准测试MLE-Bench上的领先成绩及其产业落地案例,证明了国内AI团队在Harness工程化实践上已走在前面[1][6][31] Harness Engineering 概念与重要性 - Harness Engineering是指围绕AI智能体设计系统、约束和反馈循环,使其在生产环境中能够可靠运行的工程学科,是AI智能体的两大支柱之一(另一支柱为大模型)[1] - 其核心要素包括权限与安全护栏、记忆与状态管理、工具与工作流编排,以及自我纠错循环机制[1] - 该概念的兴起意味着AI技术正在告别“盲盒”时代,迈向工程学范畴,目标是从手工构建AI转向框架驱动的演化[1][19] - 行业观点认为,未来的AI竞争中,谁能构建出最优秀的Harness框架,谁就能真正把大模型的智力转化为生产力[21] 百度伐谋在MLE-Bench的评测表现 - 百度伐谋智能体在由OpenAI主导的权威基准测试MLE-Bench上登顶,刷新了SOTA(最优水平)成绩,这是继去年10月首次登顶后的第二次领跑[6] - MLE-Bench被公认为检验智能体“动手能力”的硬核考场,它选取了75个来自Kaggle竞赛的真实工程难题,重点考察AI在机器学习全流程中的端到端实战能力,而非简单的常识问答或代码生成[6] - 伐谋2.0版本在2025年12月末以59.56分登顶,在2026年2月的榜单风波后,于3月23日后以无可争议的分数重回主榜榜首[12][15][16] - 在2.0版本的升级中,团队反直觉地未使用当时最先进的基座模型,以单独验证智能体Harness系统自身的进步[12] - 评测过程中出现风波:一家名为Disarray的创业公司提交了77.78分的成绩,但被AI社区发现其利用了测试机制漏洞(接收私有测试集反馈、调用外部网络数据),随后MLE-Bench官方新增“清洁赛道”(No Private LB)将其隔离,百度伐谋坚守原则的成绩得到确认[13][15] 百度伐谋2.0的技术优势 - 伐谋是一个让AI算法自主进化、寻找全局最优解的多智能体系统,结合了大语言模型和进化搜索算法[22] - **执行多智能体并行探索模式**:面对新任务时,系统通过多智能体并发生成多个“初始算法解”,形成初始种群,随后在分布式集群上利用大规模并行的变异与交叉机制持续自演化,逼近全局最优解[22] - **升级长程记忆机制**:解决了大模型在长链条任务中容易遗忘的痛点,使智能体能像人类工程师一样保持思路清晰、逻辑一致,记住之前的分析、决策和中间结果[22] - **底层基础设施优化**:依托百度智能云的全栈AI云优化,在计算资源调度、任务并行执行、容错恢复等方面做到极致,显著提升了算法演化迭代效率,保障系统稳定、快速、可靠运行[23] 百度伐谋的产业落地实践 - **汽车研发(阿尔特公司)**:将伐谋用于汽车风阻系数分析,训练出“御风”智能预测系统,将原本需要10小时的单次气动验证缩短至数分钟,预测误差控制在5%以内,使整车研发周期缩短了25%[25][26][28] - **银行风控(中信百信银行)**:将伐谋引入核心风控体系进行特征挖掘,将特征挖掘效率提升了100%,并抓取到人类易忽略的高价值特征,使风控模型的风险区分度提升了2.41%[28] - **科研设备研发(北京工业大学)**:将伐谋用于中国空间站微型空气质量监测设备中“气相色谱柱”的流场均匀性难题优化,通过自我演化打破了人类常规设计极限,找出了更优解,提升了气体分离效率[29] - **灾害预测模型选优(天津大学)**:将伐谋应用于滑坡位移预测、结构面岩爆等模型的算法选优,将过去动辄以“周”为单位的选优周期压缩到了6个小时[29]
量化看市场系列之十四:一文了解Hermes Agent
华创证券· 2026-04-10 12:43
量化模型与构建方式 本报告主要介绍AI Agent工具Hermes,并未涉及具体的量化投资模型或量化因子的构建、测试与评价[7]。报告内容聚焦于该工具的功能、架构及其在金融工程领域的潜在应用场景[1][39]。 量化因子与构建方式 本报告未涉及具体的量化因子构建。 模型的回测效果 本报告未提供任何量化模型的回测效果数据。 因子的回测效果 本报告未提供任何量化因子的回测效果数据。
Claude狂飙300亿美元,发布Managed Agents,是时候再聊下Harness 啦 | Jinqiu DeepTalk报名
锦秋集· 2026-04-09 13:01
Anthropic发布Harness产品与Claude的商业化进展 - 2024年4月8日,Anthropic正式发布Claude Managed Agents,这是一套用于大规模构建和部署云托管代理的可组合API,产品已进入公开测试版 [8][9] - 除了标准Claude Token消耗外,该产品每会话每小时收取0.08美元的运行时间费用 [10] - 此次发布标志着Anthropic首次将其内部工程体系中的Harness能力产品化、平台化 [12] - Anthropic的Claude年收入预期在近期突破300亿美元,正式超越OpenAI;而2025年底该数字为90亿美元,意味着在三个月内翻了三倍 [13] - 年化消费超过百万美元的大客户数量,在两个月内从500家增长到1000家 [13] Harness Engineering:AI Agent商业化的新工程底座 - 行业共识是,模型能力正在加速商品化,但决定Agent能否进入企业核心流程的关键,是背后一整套工程基础设施,包括沙箱执行、状态管理、权限控制、任务恢复、全链路追踪、结果验证与回滚等 [13] - 企业真正购买的是“production-ready intelligence”,而不仅仅是“intelligence” [14] - Anthropic的商业成功验证了一条路径:高客单价企业客户 + Coding agent工作流 + 持续扩张 [15] - AI的竞争正从模型能力竞争,逐渐转向结果交付能力竞争;Harness Engineering被认为是这个时代新的工程底座 [15] Claude Code源码泄露事件及其影响 - 由于一次打包失误,Claude Code的完整内部源码泄露,涉及接近2000个内部文件、约50万行代码 [16] - 此次泄露将一整套包含agentic coding工程智慧的骨架暴露出来,可能导致全球Agent的Harness Engineering水平被“一夜拉平” [16] - 一场关于“谁能最快消化这套工程范式”的军备竞赛已经打响,更快理解并复用这套范式的团队将能更快构建真正可用的AI系统 [16] - Claude Managed Agents的推出,也意味着这套能力开始从内部工程体系走向平台化、标准化 [16] 关于Harness Engineering的深度探讨议题 - 分享将拆解Harness Engineering这一正在重塑AI行业的新工程范式 [23] - 探讨真实企业场景中Harness的具体形态、从概念到落地面临的挑战与门槛 [23] - 分析Claude Code源码泄露后,中国团队在相关方向上的机会与门槛 [23] - 探讨当工程层成为主战场时,模型Post-training(后训练)方向可能发生的变化 [23] Pokee.ai公司介绍 - Pokee.ai是一家面向专业人士和企业的AI Agent公司 [6][22] - 公司于2024年获得锦秋基金的投资 [6][22] - 2025年,公司完成1200万美元种子轮融资,由Point72 Ventures领投,Qualcomm Ventures、Samsung NEXT Ventures、SCB 10X等参投 [6][17][22] - Pokee.ai是较早在生产环境里跑通agentic工作流的实践者,对Harness架构有直接的工程经验 [16]
西部证券晨会纪要-20260402
西部证券· 2026-04-02 08:55
固定收益市场 - 2026年3月制造业PMI为50.4%,环比上升1.4个百分点,时隔两个月重返荣枯线上,超季节性回升[1][6] - 3月制造业产需同步改善,生产指数重返扩张区间,内外需双双改善,企业主动补库,价格指数大幅回升预示3月PPI同比增速有望转正[6][7][8] - 3月非制造业商务活动指数为50.1%,环比上升0.6个百分点;服务业PMI重返扩张,但建筑业商务活动指数仍处于收缩区间[6][9] - 3月债市受月末PMI改善影响有所调整,当前市场核心驱动因素为中东局势、通胀预期和债市配置力量增强,预计债市震荡偏强[1][9] - 展望4月,信用债市场预计呈现“需求回暖、供给温和放量”格局,二永债供给有望打破年初静默温和放量,4-5月是监管批文集中落地时段[59][60] 计算机行业与金山办公 - 金山办公2025年实现营收59.29亿元,同比增长15.78%;扣非后归母净利润18.03亿元,同比增长15.82%[11] - 公司海外业务高速增长,2025年海外WPS个人业务收入2.8亿元,同比增长53.67%,累计年度付费个人用户数达285万,同比增长63.39%[11] - WPS Office海外月度活跃设备数达2.45亿,其中PC版海外月活设备数达4247万,同比增长53.78%[11] - 公司持续加大AI投入,2025年研发投入20.95亿元,同比增长23.57%;WPS AI国内月活用户超8013万,同比增长307%[12] - 行业动态:Harness Engineering成为AI编程新风口,旨在通过外部框架优化多智能体协作;Claude Code逾51.2万行源码遭泄露,或降低AIAgent研发门槛[63][64][65] 食品饮料行业与贵州茅台 - 贵州茅台自2026年3月31日起,将飞天53%vol 500ml贵州茅台酒(2026)销售合同价由1169元/瓶上调至1269元/瓶,自营体系零售价由1499元/瓶调整为1539元/瓶[14] - 报告认为本次提价信号意义大于业绩实际拉动,主要基于节后飞天茅台供需偏紧及公司通过i茅台增强终端定价能力的背景[2][14][15] - 预计公司2025-2027年EPS分别为70.29元、73.39元、78.51元[2][15] - 行业动态:糖酒会反馈显示白酒行业延续分化,头部酒企率先企稳;茅台凭借强品牌力和i茅台等渠道变革走在行业C端时代前列[57] - 低度潮饮健康化、现制茶饮加速与咖啡融合成为行业新趋势[58] 家用电器行业与美的集团 - 美的集团2025年实现营业总收入4585.0亿元,同比增长12.1%;归母净利润439.5亿元,同比增长14.0%[17] - 2025年公司智能家居业务同比增长11.3%,整体外销收入同比增长15.9%,OBM业务占比达45%以上[17] - 商业及工业解决方案收入同比增长17.5%,其中楼宇科技业务同比增长25.7%[18] - 公司股东回报提升,2025年现金分红率73.6%,同比提升4.3个百分点;并计划2026年回购65-130亿元股份[18] - 预计公司2026-2028年归母净利润分别为467.5亿元、512.8亿元、551.4亿元[3][18] 电力设备行业与相关公司 - **阳光电源**:2025年实现营收891.84亿元,同比增长14.55%;归母净利润134.61亿元,同比增长21.97%[20];2025年光伏逆变器全球发货量143GW,储能系统全球发货43GWh[21];预计2026-2028年归母净利润分别为162.96亿元、210.52亿元、248.26亿元[22] - **科达利**:2025年实现营收152.13亿元,同比增长26.46%;归母净利润17.64亿元,同比增长19.87%[23];电池结构件业务营收147.05亿元,同比增长28.17%[24];公司拓展人形机器人灵巧手等业务,打开第二增长曲线[24];预计2026-2028年归母净利润分别为23.95亿元、31.89亿元、40.35亿元[24] 非银金融行业与相关公司 - **中国银河**:2025年实现营收283.02亿元,同比增长24.3%;归母净利润125.2亿元,同比增长24.8%[26];财富管理优势稳固,2025年代销金融产品收入同比增长77%,金融产品保有规模2519.48亿元[27];两融余额1362亿元,市占率由4.9%提升至5.4%[28];预计2026年归母净利润141.11亿元,同比增长12.7%[28] - **广发证券**:2025年实现营收354.93亿元,同比增长34.3%;归母净利润137.02亿元,同比增长42.2%[30];公募资管是核心优势,旗下广发基金、易方达基金2025年净利润合计贡献17.2%[31];自营投资业务收入137.01亿元,同比增长59.1%[32];预计2026-2028年归母净利润分别为151.18亿元、162.67亿元、172.61亿元[32] - **中信金融资产**:2025年实现归母净利润110.86亿元,同比增长15.3%[34];股权投资构建利润护城河,确认联营企业收益283.53亿元[34];不良资产主业稳健,收购处置业务减亏71%,纾困业务收入82.71亿元,同比增长54.7%[35];预计2026-2028年归母净利润分别为116.38亿元、125.98亿元、131.39亿元[36] - **华泰证券**:2025年实现营收358.10亿元,同比增长6.8%;归母净利润163.83亿元,同比增长6.7%[53];科技金融特色鲜明,发布“AI涨乐”APP,2025年金融产品销售规模6733亿元,同比增长33.6%[54];国际业务快速发展,华泰国际金控净利润贡献达20%[55];预计2026-2028年归母净利润分别为188.11亿元、209.09亿元、221.86亿元[55] 汽车行业与相关公司 - **赛力斯**:2025年实现营业总收入1650.54亿元,同比增长13.69%;归母净利润59.57亿元,同比增长0.18%[39];研发投入125.1亿元,同比增长77.4%[40];预计2026-2028年营收分别为1871亿元、2594亿元、3225亿元[40] - **伯特利**:2025年实现营业总收入120.14亿元,同比增长20.91%;归母净利润13.09亿元,同比增长8.32%[42];客户结构持续优化,服务于全球前十大车企中的八名[42];积极布局EMB、悬架系统及机器人核心零部件等新业务[43];预计2026-2028年营收分别为152亿元、184亿元、221亿元[43] - **比亚迪**:2025年实现营业收入8040亿元,同比增长3.5%;归母净利润326.2亿元,同比减少19%[45];出海成为重要增长引擎,新能源汽车运营足迹遍布全球119个国家和地区[45];发布兆瓦闪充技术,实现常温下10%至70%电量充电仅需5分钟[46];预计2026-2028年营收分别为9344亿元、10224亿元、11439亿元[46] 建筑材料行业与天山股份 - 天山股份2025年实现营业收入744.96亿元,同比减少14.40%;归母净利润-72.91亿元[48] - 业绩亏损主因水泥量价齐跌及计提大额资产减值损失63.67亿元(同比增加59.34亿元)[49][50] - 2025年水泥熟料销量1.97亿吨,同比减少12.28%;单吨价格同比减少12元至235元[49] - 海外业务表现亮眼,收入16.47亿元,同比增长95.93%,毛利率达40.30%[50] - 预计2026-2028年归母净利润分别为10.89亿元、17.33亿元、22.28亿元[51] 北交所市场 - 2026年3月31日,北证50指数收盘1248.29点,下跌0.99%,PE_TTM为51.78倍;当日成交金额134.7亿元[66] - 3月市场出现深度回调,主要受中东地缘冲突推升通胀担忧、美联储鹰派预期强化全球流动性收紧等因素影响[68] - 短期市场预计维持震荡磨底,后续需关注地缘冲突、货币政策、A股流动性及一季报业绩[68] - 中期看,随着估值回落至历史低位,聚焦半导体、军工、AI、卫星互联网等国产替代主线的优质专精特新企业长期配置价值显现[68] 主要市场指数(2026年4月2日) - 国内市场普涨:上证指数收盘3948.55点,上涨1.46%;深证成指收盘13706.52点,上涨1.70%;创业板指收盘3247.52点,上涨1.96%[5] - 海外市场上涨:道琼斯指数收盘46565.74点,上涨0.48%;标普500指数收盘6575.32点,上涨0.72%;纳斯达克指数收盘21840.95点,上涨1.16%[5]