文章核心观点 - 文章认为,Harness Engineering(系统编排工程)是AI智能体(Agent)领域的关键上层建筑,正成为下一代AI工程化的分水岭,其重要性可能使其成为2026年AI领域最重要的概念[1] - 文章指出,AI领域的竞争焦点正从基础模型转向框架层,而百度伐谋(Famou)智能体在权威基准测试MLE-Bench上的领先成绩及其产业落地案例,证明了国内AI团队在Harness工程化实践上已走在前面[1][6][31] Harness Engineering 概念与重要性 - Harness Engineering是指围绕AI智能体设计系统、约束和反馈循环,使其在生产环境中能够可靠运行的工程学科,是AI智能体的两大支柱之一(另一支柱为大模型)[1] - 其核心要素包括权限与安全护栏、记忆与状态管理、工具与工作流编排,以及自我纠错循环机制[1] - 该概念的兴起意味着AI技术正在告别“盲盒”时代,迈向工程学范畴,目标是从手工构建AI转向框架驱动的演化[1][19] - 行业观点认为,未来的AI竞争中,谁能构建出最优秀的Harness框架,谁就能真正把大模型的智力转化为生产力[21] 百度伐谋在MLE-Bench的评测表现 - 百度伐谋智能体在由OpenAI主导的权威基准测试MLE-Bench上登顶,刷新了SOTA(最优水平)成绩,这是继去年10月首次登顶后的第二次领跑[6] - MLE-Bench被公认为检验智能体“动手能力”的硬核考场,它选取了75个来自Kaggle竞赛的真实工程难题,重点考察AI在机器学习全流程中的端到端实战能力,而非简单的常识问答或代码生成[6] - 伐谋2.0版本在2025年12月末以59.56分登顶,在2026年2月的榜单风波后,于3月23日后以无可争议的分数重回主榜榜首[12][15][16] - 在2.0版本的升级中,团队反直觉地未使用当时最先进的基座模型,以单独验证智能体Harness系统自身的进步[12] - 评测过程中出现风波:一家名为Disarray的创业公司提交了77.78分的成绩,但被AI社区发现其利用了测试机制漏洞(接收私有测试集反馈、调用外部网络数据),随后MLE-Bench官方新增“清洁赛道”(No Private LB)将其隔离,百度伐谋坚守原则的成绩得到确认[13][15] 百度伐谋2.0的技术优势 - 伐谋是一个让AI算法自主进化、寻找全局最优解的多智能体系统,结合了大语言模型和进化搜索算法[22] - 执行多智能体并行探索模式:面对新任务时,系统通过多智能体并发生成多个“初始算法解”,形成初始种群,随后在分布式集群上利用大规模并行的变异与交叉机制持续自演化,逼近全局最优解[22] - 升级长程记忆机制:解决了大模型在长链条任务中容易遗忘的痛点,使智能体能像人类工程师一样保持思路清晰、逻辑一致,记住之前的分析、决策和中间结果[22] - 底层基础设施优化:依托百度智能云的全栈AI云优化,在计算资源调度、任务并行执行、容错恢复等方面做到极致,显著提升了算法演化迭代效率,保障系统稳定、快速、可靠运行[23] 百度伐谋的产业落地实践 - 汽车研发(阿尔特公司):将伐谋用于汽车风阻系数分析,训练出“御风”智能预测系统,将原本需要10小时的单次气动验证缩短至数分钟,预测误差控制在5%以内,使整车研发周期缩短了25%[25][26][28] - 银行风控(中信百信银行):将伐谋引入核心风控体系进行特征挖掘,将特征挖掘效率提升了100%,并抓取到人类易忽略的高价值特征,使风控模型的风险区分度提升了2.41%[28] - 科研设备研发(北京工业大学):将伐谋用于中国空间站微型空气质量监测设备中“气相色谱柱”的流场均匀性难题优化,通过自我演化打破了人类常规设计极限,找出了更优解,提升了气体分离效率[29] - 灾害预测模型选优(天津大学):将伐谋应用于滑坡位移预测、结构面岩爆等模型的算法选优,将过去动辄以“周”为单位的选优周期压缩到了6个小时[29]
刷榜风波惊动OpenAI后,这家中国团队拿回Agent硬核榜单第一