一种基于深度学习的有害网站识别方法及装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：南京中新赛克软件有限责任公司

摘要：本发明公开了一种基于深度学习的有害网站识别方法及装置，所述方法包括：爬取和收集现有有害网站的特征数据，并建立有害网站的特征数据库；将特征数据库及其对应的标签输入到预训练模型中，分别训练得到有害检测模型和有害分类模型；对于互联网流量中提取到的域名或IP爬取其网站特征信息数据；将网站特征输入到已训练的检测模型中，得到第一研判结果；若第一研判结果为正常，则根据特征数据判断是否为仿冒网站；若第一研判结果为异常，则将网站特征信息输入到有害分类模型中，得到网站的具体有害类型。本发明通过基于深度学习的分级模型分别对网站进行有害检测和识别，从而可以准确地实现对有害网址的有害分析研判。

主权项：1.一种基于深度学习的有害网站识别方法，其特征在于，包括如下步骤：步骤1，爬取和收集现有有害网站的特征数据，并建立有害网站的特征数据库；包括：通过静态方式获取网站的响应状态码、标题、网页内容文本信息；过滤出响应状态码异常的网页，并将网页内容文本长度与预先设定的阈值进行比较；当网页内容文本长度小于阈值时，则通过动态爬取方式获取网页快照和网页内容文本；通过OCR技术提取出网页快照中的文本，并累加到网页内容文本上，构成新的网页内容文本，构成新的网页内容文本后替换静态方式获取的网页文本；步骤2，将特征数据库及其对应的标签输入到预训练模型中，分别训练得到有害检测模型和有害分类模型；有害检测模型用于检测网站是否正常，有害分类模型用于输出网站有害类型；具体包括如下步骤：1对特征数据库中的有害网址文本进行预处理；2构建已预训练的BERT模型；将包含标签的网页内容信息作为训练集，输入到BERT模型得到语义表征，然后输入至Sigmoid训练得到有害检测模型，输入Softmax中训练得到有害分类模型；步骤3，根据互联网流量中提取到的域名或IP爬取网站特征信息数据；步骤4，将网站特征信息输入到步骤2训练的有害检测模型中，得到第一研判结果；步骤5，若第一研判结果为正常，则根据特征数据判断是否为仿冒网站；判断仿冒网站的过程为：计算网站的标题和文本内容与易被仿冒网站的相应部分的相似度，然后将计算得到的相似度与预设阈值进行比较，若大于阈值，则网站为仿冒网站，否则为正常网站；相似度计算公式为：S＝Jaccardtitle+Jaccardcontent，其中，S为相似度，title为标题，content为文本内容，Jaccard为Jaccard相似度；步骤6，若第一研判结果为异常，则将网站特征信息输入到步骤2训练的有害分类模型中，得到网站的具体有害类型。

全文数据：

权利要求：

百度查询：南京中新赛克软件有限责任公司一种基于深度学习的有害网站识别方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：基于WO₃@AuNPs和聚合物PAMAM双信号放大的DR1检测试剂盒及应用

下一篇：一种带有光路定向机构的车载顶灯

相关技术

基于WO₃@AuNPs和聚合物PAMAM双信号放大的DR1检测试剂盒及应用

一种带有光路定向机构的车载顶灯

一种肽功能化纳米酶及其制备方法和应用

核酸探针及利用核酸探针进行DNA检测的方法

一种基于非正交多址技术的近远场鲁棒安全通感融合方法

一种音视频混合数字多码加密方法

一种公路深层病害双组分高聚物抽拔注浆加固装置及方法

钢包上水口拆卸装置

一种红松生长影响因素获取系统

一种火电厂加热水处理用化验取样装置

一种纯水中超快激光烧蚀制备高活性纳米氧化银析氢材料的方法

电动汽车

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度学习的有害网站识别方法及装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务