首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度学习的非法网站识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:江西珉轩大数据有限公司;东华理工大学

摘要:本发明涉及网站筛选技术领域,公开了一种基于深度学习的非法网站识别方法,S100:将网站的HTML内容输入至BERT‑CNN模型中,输出网站为非法网站的概率;S200:将网站的图片输入至ResNet‑18模型中,输出网站为非法网站的概率;S300:获取BERT‑CNN模型和ResNet‑18模型的输出,通过融合算法对这两个分类结果进行融合,待识别网站被预测为非法网站的概率;S400:对已判断其为非法网站的待识别网站的网站URL进行标记,并录入至非法网站库内储存。本发明使用BERT模型和ResNet模型研究了非法网站不同维度信息的特征分析和提取,并对BERT模型在局部特征提取存在的问题进行了改进,在公开的数据集上进行实验测试,模型的评价指标表现出良好的性能,能够有效地检测和识别非法网站。

主权项:1.一种基于深度学习的非法网站识别方法,其特征在于,包括以下步骤:S100:将网站的HTML内容输入至BERT-CNN模型中,输出网站为非法网站的概率;S200:将网站的图片输入至ResNet-18模型中,输出网站为非法网站的概率;S300:获取BERT-CNN模型和ResNet-18模型的输出,通过融合算法对这两个分类结果进行融合,得到待识别网站被预测为非法网站的概率,当被预测为非法网站的概率大于0.5,则该待识别网站为非法网站;融合算法的计算公式如下: ; 表示考虑文本和图像特征后,第i个待识别网站被预测为非法网站的概率,和分别表示第一特征权重系数和第二特征权重系数,是基于BERT-CNN模型预测的测试集中第i个网站为非法网站的概率,基于ResNet-18模型预测的测试集中第i个网站为非法网站的概率;S400:对已判断其为非法网站的待识别网站的网站URL进行标记,并录入至非法网站库内储存;在步骤S100中还包括:S110,将第一网页文本和第二网页文本分别进行分句,生成第一句子集合和第二句子集合,第一句子集合包括第一网页文本分句的所有句子,第二句子集合包括第二网页文本分句的所有句子;每间隔一段时间提取一次网页文本,直至提取到一个与第一次提取的网页文本不完全相同的网页文本为止,最后一次提取的网页文本即是第二网页文本,第一次提取的网页文本是第一网页文本;S120,删除第一句子集合和第二句子集合中属于否定句的句子;S130,将第一句子集合中的句子分别与第二句子集合中的句子进行一一对比,在每次对比时进行以下操作:删除重复的词,然后将不重复的词放入第一词库;在步骤S130中还包括对第一词库缩减规模的处理,缩减规模后的第一词库中仅包括名词、动词、形容词、数词和量词;S140,识别第一词库中属于敏感词的词来放入第二词库中;S150,在步骤S110中的第一句子集合中提取包含第二词库的词的句子生成第三句子集合;在步骤S110中的第二句子集合中提取包含第二词库的词的句子生成第四句子集合;S160,从第一网页文本中删除不属于第三句子集合的句子获得第一文本;从第二网页文本中删除不属于第四句子集合的句子获得第二文本;将第二文本组合到第一文本之后获得第三文本,第三文本作为网站的HTML内容输入BERT-CNN模型。

全文数据:

权利要求:

百度查询: 江西珉轩大数据有限公司 东华理工大学 一种基于深度学习的非法网站识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。