买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开一种联合实体抽取的漏洞归一化深度学习方法,属于漏洞管理技术领域。为解决漏洞归一化方法存在的误报率高、效率低等问题,本发明从互联网上收集不同漏洞扫描厂商的漏洞数据,整理所有漏洞描述信息并编号,将同一编号的漏洞进行配对,将不同漏洞编号的漏洞进行随机配对,构建深度学习算法所需的数据集;构建深度学习算法,计算出两个漏洞描述信息之间的语义相似度;获取漏洞描述信息的实体词列表,并计算出两个漏洞的实体词列表相似度;构建加权计算公式,计算出漏洞文本间的相似度,基于相似度排序和阈值过滤的方法,得到归一化结果。本发明通过构建深度学习算法,联合漏洞实体抽取,实现缺少统一编号漏洞高效、准确的归一化处理。
主权项:1.一种联合实体抽取的漏洞归一化深度学习方法,其特征在于,包括以下步骤:步骤S1、构建深度学习算法所需的数据集;从互联网上收集不同漏洞扫描厂商的漏洞数据,整理所有漏洞描述信息,并依据CVE、CNVD或CNNVD漏洞编号,将同一漏洞编号的漏洞进行配对,将不同漏洞编号的漏洞进行随机配对,构建深度学习算法所需的数据集;所述步骤S1中,漏洞数据的收集和整理包括:首先,将收集到的漏洞数据数据进行分类,一类是包括CVE、CNVD或CNNVD漏洞编号的漏洞,另一类是不包括漏洞编号的漏洞;其次,对于所有具有统一漏洞编号的数据进行数据集的构建,用于深度学习算法的训练,所述数据集的构建过程为:步骤S11、将所有具有相同漏洞编号且来自不同漏洞厂商的数据进行配对,作为正样例,并打标签为1;步骤S12、将所有具有不相同漏洞编号且来自不同漏洞厂商的数据进行配对,作为负样例,并打标签为0;步骤S13、将步骤S11和S12构建好的数据按照7:2:1的比例分为训练集、验证集和测试集;对于没有漏洞编号的漏洞,用于人工校验最终模型的效果;步骤S2、构建深度学习算法;对步骤S1中的数据集进行向量化处理,获得漏洞描述在向量空间上的语义信息,并计算出两个漏洞描述信息之间的语义相似度;所述步骤S2,构建深度学习算法并计算出两个漏洞描述信息之间的语义相似度包括如下步骤:S21、将句子进行向量化处理;将漏洞描述信息进行预处理,去除特殊字符,再将其输入到BERT模型中,将所有字词转化为384维的向量;所述BERT模型,表示将文本转化为向量并保留文本上下文信息的深度学习算法模型;S22、构建两层全连接层,进一步提取两个句子的语义特征;所述全连接层表示将某个空间维度映射到另一个空间维度;S23、选取余弦距离作为模型的输出,并利用步骤S1中构建的数据集对模型进行训练,使得模型能够取得最优解,余弦公式计算如下: 其中,X表示第一个漏洞描述信息经过全连接层后的向量,Y表示第二个漏洞描述信息经过全连接层后的向量,TextSimilaritX,Y表示两漏洞描述信息的余弦相似度;步骤S3、计算出两个漏洞的实体词列表相似度;通过文本分词和实体词过滤的方式,获得漏洞描述信息的实体词列表,并计算出两个漏洞的实体词列表相似度;所述步骤S3具体实现过程如下,将漏洞文本中的所有英文部分提取出来,经过分词处理后,与英文实体库进行比对,只保留有实体意义的单词,作为漏洞文本的实体词,包括如下步骤:步骤S31、输入漏洞文本;步骤S32、通过正则表达式去除中文文本;步骤S33、对剩余的英文单词进行分词;步骤S34、用英文实体库进行过滤,得到该漏洞文本的实体词列表;得到实体词列表后,使用同步骤S2中相同的深度学习算法模型结构进行训练,得到基于实体词相似度的深度学习算法模型,并通过该模型计算出两漏洞实体词列表的相似度; 其中,X’表示第一个漏洞实体词列表经过全连接层后的向量,Y’表示第二个漏洞实体词列表经过全连接层后的向量,EntitySimilarityX’,Y’表示两漏洞实体词列表的余弦相似度;步骤S4、获取归一化结果;通过构建计算公式,将步骤S2与S3得到的结果进行组合,计算出漏洞文本间的相似度,基于相似度排序和阈值过滤的方法,得到归一化结果,具体公式如下:Score=0.7*TextSimilarityX,Y+0.3*EntitySimilarityX′,Y′其中:TextSimilarityX,Y表示步骤S2的余弦相识度分值,EntitySimilarityX',Y'表示步骤S3的实体词列表相似度分值。
全文数据:
权利要求:
百度查询: 中国人民解放军61660部队 一种联合实体抽取的漏洞归一化深度学习方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。