文章核心观点 - Scorecard是一个基于机器学习的工具包,旨在通过分析公开信息来评估公司遭受特定高级持续性威胁(APT)攻击的可能性,从而帮助企业更战略性地分配网络安全资源 [4][5] - 该解决方案利用深度学习模型,将APT和公司的文本描述转换为共享嵌入空间,通过度量学习识别攻击模式,其最佳模型在预测前5名和最可能的前10名APT时准确率分别达到85%和94% [5][12][21] - 尽管面临数据收集困难和稀缺的挑战,该项目证明了机器学习在识别APT攻击模式方面的潜力,并为未来AI网络安全工具的发展指明了方向 [7][27][28] 网络安全行业挑战 - 高级持续性威胁(APT)是国家和企业面临的主要网络安全威胁,目前有超过40个被归类为APT的组织,它们通常由国家资助,技术高超且资源充足 [2][6] - 网络安全领域存在大量对威胁进行识别和命名的机构,导致对同一攻击组织的命名和解读多样,造成行业混乱,使公司难以确定网络防御的重点领域 [3] - 不断增长的威胁 landscape(包括APT、网络犯罪集团、黑客活动分子等)使得大多数公司难以有效管理网络威胁 [3] Scorecard解决方案概述 - Scorecard通过提供针对性的洞察,帮助组织了解最可能瞄准他们的APT,网络安全专家可利用这些洞察增强合规性和渗透测试策略,公司领导层则可据此优化公开披露的信息 [4] - 该工具是开发基于ML的工具包的第一步,它利用已知攻击者的方法来测试和增强网络防御方法学 [5] - 通过了解可能针对自身的APT,公司可以优先处理高风险领域的网络防御,并更清晰地预见可能遇到的恶意工具和技术 [5] 机器学习方法与数据 - 模型基于APT在其目标组织类型上表现出可识别模式的假设,通过创建APT及其受害者在共享嵌入空间中的综合表征,应用度量学习来生成包含APT及其受害者的嵌入簇 [12] - 使用OpenAI的Ada文本嵌入模型将APT和公司数据转换为共享嵌入空间中的初始嵌入,然后使用基于Proxy-Anchor损失的度量学习策略训练次级模型以产生次级嵌入 [13][17] - 由于初始数据集规模有限(仅27个APT和170个已知公司受害者),采用了伪标签化过程来增加训练样本数量,这是一种数据增强形式 [10][14] 模型性能与评估 - 在27个类别的数据集上,模型的最佳构建在k值(最近邻)为1、5、10时,准确率分别达到50%、85%和94%,表明该工具可以较有信心地预测最可能的前5到10个APT [19][21] - 在真实案例评估中,对六个未参与训练和验证的公司计算风险评分,结果显示预期高分公司的APT评分普遍高于预期低分公司,但差异幅度不显著 [23][25] - 具体案例中,General Atomics对APT33的评分与其业务性质和APT33的动机历史相符,但专门从事加密货币的Coinbase其前5名评分中未出现以加密货币盗窃闻名的APT38,表明模型仍需改进 [25] 未来发展方向 - 主要挑战在于数据获取,包括缺乏统一格式的APT数据以及公开已知受害者数量稀少,这限制了可行的设计选择并影响了模型性能 [27][29] - 未来的改进可能包括评估公司的面向公众的基础设施及其战术、技术和程序(TTPs),将公司面向公众的网站纳入机器学习过程,以及评估公司声明与已知APT意识形态的匹配度以帮助评估风险暴露 [30] - 增强APT事件公开报告的透明度将显著推动该领域工具的发展和有效性 [28]
Scorecard: Machine Learning To Identify Probable Cyber Threats