基于混合表征和协同训练的软件漏洞检测 |
| |
引用本文: | 陈浩东,李琳,乔梦晴,叶彪.基于混合表征和协同训练的软件漏洞检测[J].计算机技术与发展,2024(5):126-132. |
| |
作者姓名: | 陈浩东 李琳 乔梦晴 叶彪 |
| |
作者单位: | 1. 武汉科技大学计算机科学与技术学院;2. 智能信息处理与实时工业系统湖北省重点实验室 |
| |
摘 要: | 对于漏洞领域基准数据集较少导致的深度学习模型泛化能力较差,以及传统的基于规则引擎的漏洞检测工具性能较低的问题,提出了一种基于混合表征和协同训练的软件源代码漏洞检测方法。首先,基于预训练模型提取源代码文本特征,提取代码语义信息,然后使用工具生成抽象语法树,通过自定义遍历规则提取源代码的AST(抽象语法树)特征,将两种特征进行混合丰富代码表征。其次,搭建多个深度模型,基于协同训练算法通过大量的无标签数据提升各模型的泛化能力。鉴于单一模型可能造成较高的漏报率和误报率,并可能被某一模型主导预测结果的问题,采用了基于加权投票机制的多模型集成方法。实验结果表明,该方法在一定程度上解决了数据集较少导致的模型泛化性差的问题,与漏洞检测领域一些主流检测方法相比,该方法在各指标上具有一定的优势,且检测性能高于规则引擎Fortify。
|
关 键 词: | 深度学习 混合表征 漏洞检测 协同训练 集成学习 |
|
|