Workflow
2025年机器语言大模型赋能软件自主可控与安全可信报告
清华大学·2025-03-12 15:30

报告行业投资评级 未提及 报告核心观点 软件是网络空间的基石,但软件生态面临自主可控和安全可信难题,关键在于分析、理解目标闭源软件现有大语言模型难以分析二进制程序,而机器语言大模型MLM可实现全场景智能化,开创软件分析新范式,在软件逆向分析、生态迁移、供应链分析等多领域有广泛应用,能解决行业诸多痛点 [8][13][39][61] 各部分总结 背景 - 软件是网络空间的基石,广泛应用于云计算、物联网等领域 [6][7] - 软件生态面临自主可控难题,关键软件长期由国外主导,面临断供、安全、知识产权风险,且闭源导致供应链风险高、自主可控难度大 [8] - 软件生态面临安全可信难题,漏洞问题层出不穷,恶意代码急剧增长,软件安全风险未知,闭源软件分析难度大、安全问题隐藏深 [9][13][18] 关键问题 - 软件开发与安全的关键问题是分析、理解目标闭源软件,包括安全风险发现与防范、自主可控国产化替代等方面 [22] - 软件分析存在挑战,展示了相关代码示例 [24][26] - 软件理解依赖人工经验,需进行代码功能分析、安全分析等,还面临恶意漏洞、逆向破解、供应链等问题 [27] 智能化方案 - 现有大语言模型难以分析二进制程序,软件可抽象为自然语言、源代码、二进制程序三个维度的表示,机器语言缺少智能化解决方案 [38][39] - 大语言模型方案采用Transformer架构,根据不同需求分为海量算力、适量算力、少量算力三种,涉及预训练、微调、推理等环节,使用海量数据、适量标注数据、目标数据,并进行模型优化和专业数据自动生成 [42][43] - 实现了多个关键技术零的突破,包括大规模机器语言 - 自然语言 - 源代码多模态对齐数据、全自动数据生成标注对齐、自研机器语言模型训练方法、完善的机器语言模型基础设施 [50] - 关键技术包括融合领域知识的模型优化,修改模型设计融入代码领域知识;基于对比学习的语义理解,使语义相似的二进制代码embedding接近;基于多模态学习的语义理解,将语义空间与人类意图对齐 [51][54][57] - 机器语言大模型MLM可实现全场景智能化,多平台、多场景、多能力,语义理解超越人类专家水平,反汇编核心功能全面超越IDAPro [61] 典型应用 - 包括软件逆向分析,反编译生成C代码;软件生态迁移,突破卡脖子技术,实现信创国产化和老旧软件升级迁移;软件供应链分析,进行细粒度、高速、语义对齐的二进制代码比对 [67] - 软件一致性检测,解决采购痛点;漏洞挖掘,大模型赋能Oday、1day漏洞挖掘;软件版权保护分析,破解取证难题 [69] - Demo展示了MLM将黑盒二进制程序变成白盒代码,让专家从繁琐底层代码分析中解放出来专注高层分析任务 [74] 总结 - 软件自主可控、安全可信的解决方案是大语言模型 [79] - 机器语言大模型MLM是全球首个,具有全场景智能化、多平台、多能力等特点,语义理解和反汇编核心功能表现出色 [82][83] - 有广泛应用场景,涵盖软件逆向分析、生态迁移、供应链分析、一致性检测、漏洞挖掘、版权保护分析等方面 [86][87]