MDASH
搜索文档
Microsoft's multi-agent AI system tops Anthropic's Mythos on cybersecurity benchmark
GeekWire· 2026-05-14 08:16
微软MDASH系统技术突破 - 微软推出名为MDASH的新型多模型AI系统,该系统在领先的网络安全基准测试中超越了Anthropic的Mythos系统[2] - MDASH系统采用多智能体架构,运行超过100个专门的AI智能体,这些智能体在多个AI模型上协同工作,以发现现实世界的软件漏洞[2] - 该系统通过分阶段流程运作:不同智能体扫描代码寻找潜在漏洞,另一组智能体辩论每个发现是否真实且可利用,最后阶段构建概念验证攻击以确认漏洞存在[4] 基准测试表现 - 在CyberGym基准测试中,MDASH得分为88.45%,该测试由加州大学伯克利分校研究人员开发,包含来自188个开源软件项目的1,507项任务,用于衡量AI系统复现现实世界漏洞的能力[6] - Anthropic的Mythos Preview以83.1%的得分位列第二,OpenAI的GPT-5.5以81.8%的得分紧随其后[6] - 该基准测试为每个系统提供一个已知漏洞的描述和一个未打补丁的代码库,并衡量其是否能产生触发该漏洞的有效攻击[6] 实际应用与发现 - 微软在披露MDASH系统的同时,公布了该系统在不同版本Windows中发现的16个新漏洞,其中包括在本月“补丁星期二”更新中修复的4个“关键”远程代码执行漏洞[2] - 公司告知客户,由于AI加速了漏洞发现,未来“补丁星期二”的规模预计将会更大[9] - MDASH目前正由微软内部安全工程团队使用,并将进入面向客户的有限私人预览阶段[8] 行业背景与对比 - 与MDASH的多模型、多智能体架构相比,Anthropic的Mythos是一个在智能体框架内运行的单一AI模型[5] - Anthropic通过名为Project Glasswing的联盟将Mythos的发布限制在少数几家公司,该联盟成员包括微软[5] - 行业领导者如OpenAI的GPT-5.5等也是单模型系统[5] 技术战略与行业影响 - 面对对其安全漏洞的持续批评,微软正押注多模型架构能够以单模型无法比拟的速度发现漏洞[3] - 该结果凸显了行业对AI被用作攻击性黑客工具的日益增长的担忧,因为用于友好发现漏洞的相同能力也可能被攻击者利用[8] - CyberGym排行榜上的分数由各公司自行报告,基准代码是公开的,但尚无独立第三方验证任何分数,且基准测试结果不一定反映实际性能[7]