刷榜风波惊动OpenAI后，这家中国团队拿回Agent硬核榜单第一

文章核心观点 - 文章认为，Harness Engineering（系统编排工程）是AI智能体（Agent）领域的关键上层建筑，正成为下一代AI工程化的分水岭，其重要性可能使其成为2026年AI领域最重要的概念[1] - 文章指出，AI领域的竞争焦点正从基础模型转向框架层，而百度伐谋（Famou）智能体在权威基准测试MLE-Bench上的领先成绩及其产业落地案例，证明了国内AI团队在Harness工程化实践上已走在前面[1][6][31] Harness Engineering 概念与重要性 - Harness Engineering是指围绕AI智能体设计系统、约束和反馈循环，使其在生产环境中能够可靠运行的工程学科，是AI智能体的两大支柱之一（另一支柱为大模型）[1] - 其核心要素包括权限与安全护栏、记忆与状态管理、工具与工作流编排，以及自我纠错循环机制[1] - 该概念的兴起意味着AI技术正在告别“盲盒”时代，迈向工程学范畴，目标是从手工构建AI转向框架驱动的演化[1][19] - 行业观点认为，未来的AI竞争中，谁能构建出最优秀的Harness框架，谁就能真正把大模型的智力转化为生产力[21] 百度伐谋在MLE-Bench的评测表现 - 百度伐谋智能体在由OpenAI主导的权威基准测试MLE-Bench上登顶，刷新了SOTA（最优水平）成绩，这是继去年10月首次登顶后的第二次领跑[6] - MLE-Bench被公认为检验智能体“动手能力”的硬核考场，它选取了75个来自Kaggle竞赛的真实工程难题，重点考察AI在机器学习全流程中的端到端实战能力，而非简单的常识问答或代码生成[6] - 伐谋2.0版本在2025年12月末以59.56分登顶，在2026年2月的榜单风波后，于3月23日后以无可争议的分数重回主榜榜首[12][15][16] - 在2.0版本的升级中，团队反直觉地未使用当时最先进的基座模型，以单独验证智能体Harness系统自身的进步[12] - 评测过程中出现风波：一家名为Disarray的创业公司提交了77.78分的成绩，但被AI社区发现其利用了测试机制漏洞（接收私有测试集反馈、调用外部网络数据），随后MLE-Bench官方新增“清洁赛道”（No Private LB）将其隔离，百度伐谋坚守原则的成绩得到确认[13][15] 百度伐谋2.0的技术优势 - 伐谋是一个让AI算法自主进化、寻找全局最优解的多智能体系统，结合了大语言模型和进化搜索算法[22] - 执行多智能体并行探索模式：面对新任务时，系统通过多智能体并发生成多个“初始算法解”，形成初始种群，随后在分布式集群上利用大规模并行的变异与交叉机制持续自演化，逼近全局最优解[22] - 升级长程记忆机制：解决了大模型在长链条任务中容易遗忘的痛点，使智能体能像人类工程师一样保持思路清晰、逻辑一致，记住之前的分析、决策和中间结果[22] - 底层基础设施优化：依托百度智能云的全栈AI云优化，在计算资源调度、任务并行执行、容错恢复等方面做到极致，显著提升了算法演化迭代效率，保障系统稳定、快速、可靠运行[23] 百度伐谋的产业落地实践 - 汽车研发（阿尔特公司）：将伐谋用于汽车风阻系数分析，训练出“御风”智能预测系统，将原本需要10小时的单次气动验证缩短至数分钟，预测误差控制在5%以内，使整车研发周期缩短了25%[25][26][28] - 银行风控（中信百信银行）：将伐谋引入核心风控体系进行特征挖掘，将特征挖掘效率提升了100%，并抓取到人类易忽略的高价值特征，使风控模型的风险区分度提升了2.41%[28] - 科研设备研发（北京工业大学）：将伐谋用于中国空间站微型空气质量监测设备中“气相色谱柱”的流场均匀性难题优化，通过自我演化打破了人类常规设计极限，找出了更优解，提升了气体分离效率[29] - 灾害预测模型选优（天津大学）：将伐谋应用于滑坡位移预测、结构面岩爆等模型的算法选优，将过去动辄以“周”为单位的选优周期压缩到了6个小时[29]