买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:合肥工业大学
摘要:本发明公开了一种基于CNN+BERT的恶意网址检测分类模型的训练及检测方法,涉及互联网网络安全技术领域,基于CNN+BERT的恶意网址检测分类模型的训练方法包括:收集网页数据构建数据集;利用词向量模型对所有URL的词元进行处理,构建URL的字符词典,得到各个URL的编码向量即句向量;将URL句向量通过CNN网络进行自适应特征提取;对数据集中的网页文本进行编码,获取文本向量,将文本向量通过BERT模型获取网页文本特征向量;将URL特征向量与网页文本特征向量进行拼接获取网址的预测输出,将URL视作文本信息进行特征提取,对URL的语义挖掘提升了精准性,结合了CNN和BERT,提取出更加丰富和有效的特征表示,提高了网址检测的准确率。
主权项:1.基于CNN+BERT的恶意网址检测分类模型的训练方法,其特征在于,包括:S1:收集网页数据,网页数据包括URL和网页文本,并对网页进行标注,得到用于表示分类类别的网页标签;构建数据集,数据集包括URL、网页文本以及相应的网页标签;其中,URL即网址;S2:对数据集中的各个URL进行分词处理,获取各个URL中的词元;利用词向量模型对所有URL的词元进行处理,得到各个词元的词向量,并构建URL的字符词典,以及得到字符词典中各个词元的词索引,根据字符词典以及各个词元的词向量构建嵌入矩阵;根据字符词典中各个词元的词索引对各个URL进行编码,得到各个URL的编码向量即句向量;S3:将URL句向量通过CNN网络进行自适应特征提取,获取URL特征向量;S4:对数据集中的网页文本使用文本预处理模型的编码器进行编码,获取文本向量,将文本向量通过BERT模型获取网页文本特征向量;S5:将URL特征向量与网页文本特征向量进行拼接,经过全连接层,进行分类得到预测输出。
全文数据:
权利要求:
百度查询: 合肥工业大学 基于CNN+BERT的恶意网址检测分类模型的训练及检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。