一种基于深度学习的非法网站识别方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：江西珉轩大数据有限公司;东华理工大学

摘要：本发明涉及网站筛选技术领域，公开了一种基于深度学习的非法网站识别方法，S100：将网站的HTML内容输入至BERT‑CNN模型中，输出网站为非法网站的概率；S200：将网站的图片输入至ResNet‑18模型中，输出网站为非法网站的概率；S300：获取BERT‑CNN模型和ResNet‑18模型的输出，通过融合算法对这两个分类结果进行融合，待识别网站被预测为非法网站的概率；S400：对已判断其为非法网站的待识别网站的网站URL进行标记，并录入至非法网站库内储存。本发明使用BERT模型和ResNet模型研究了非法网站不同维度信息的特征分析和提取，并对BERT模型在局部特征提取存在的问题进行了改进，在公开的数据集上进行实验测试，模型的评价指标表现出良好的性能，能够有效地检测和识别非法网站。

主权项：1.一种基于深度学习的非法网站识别方法，其特征在于，包括以下步骤：S100：将网站的HTML内容输入至BERT-CNN模型中，输出网站为非法网站的概率；S200：将网站的图片输入至ResNet-18模型中，输出网站为非法网站的概率；S300：获取BERT-CNN模型和ResNet-18模型的输出，通过融合算法对这两个分类结果进行融合，得到待识别网站被预测为非法网站的概率，当被预测为非法网站的概率大于0.5，则该待识别网站为非法网站；融合算法的计算公式如下：；表示考虑文本和图像特征后，第i个待识别网站被预测为非法网站的概率，和分别表示第一特征权重系数和第二特征权重系数，是基于BERT-CNN模型预测的测试集中第i个网站为非法网站的概率，基于ResNet-18模型预测的测试集中第i个网站为非法网站的概率；S400：对已判断其为非法网站的待识别网站的网站URL进行标记，并录入至非法网站库内储存；在步骤S100中还包括：S110，将第一网页文本和第二网页文本分别进行分句，生成第一句子集合和第二句子集合，第一句子集合包括第一网页文本分句的所有句子，第二句子集合包括第二网页文本分句的所有句子；每间隔一段时间提取一次网页文本，直至提取到一个与第一次提取的网页文本不完全相同的网页文本为止，最后一次提取的网页文本即是第二网页文本，第一次提取的网页文本是第一网页文本；S120，删除第一句子集合和第二句子集合中属于否定句的句子；S130，将第一句子集合中的句子分别与第二句子集合中的句子进行一一对比，在每次对比时进行以下操作：删除重复的词，然后将不重复的词放入第一词库；在步骤S130中还包括对第一词库缩减规模的处理，缩减规模后的第一词库中仅包括名词、动词、形容词、数词和量词；S140，识别第一词库中属于敏感词的词来放入第二词库中；S150，在步骤S110中的第一句子集合中提取包含第二词库的词的句子生成第三句子集合；在步骤S110中的第二句子集合中提取包含第二词库的词的句子生成第四句子集合；S160，从第一网页文本中删除不属于第三句子集合的句子获得第一文本；从第二网页文本中删除不属于第四句子集合的句子获得第二文本；将第二文本组合到第一文本之后获得第三文本，第三文本作为网站的HTML内容输入BERT-CNN模型。

全文数据：

权利要求：

百度查询：江西珉轩大数据有限公司东华理工大学一种基于深度学习的非法网站识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种血管支架系统

下一篇：一种增加LED激发光源利用率的封装结构及封装方法

相关技术

一种血管支架系统

一种增加LED激发光源利用率的封装结构及封装方法

可再生聚合物泡沫

信用等级分析方法、装置、电子设备和存储介质

一种任务管理方法及相关系统

一种适用于电子气工厂的制氮机及其使用方法

用于运动发酵单胞菌表面展示的蛋白

一种用于智慧视频生成的分镜数据分布式处理方法及系统

特异性结合GPRC5D和CD3的抗原结合分子及其医药用途

一种用于铸造振动输送设备的隔振设计方法

基于数字孪生的数据智能可视化方法

一种可折叠式笔记本电脑无线拓展坞结构

学习相关技术

预测装置、学习装置及学习方法_龟甲万株式会社_202280091168.0

英语分层学习方法及系统_深圳英卓教育科技有限公司_202410776546.X

使用周期数据的机器学习_脸萌有限公司_202380020610.5

一种分数学习盘_福建省诺达轻工股份有限公司_202420254383.4

量化稳健联合机器学习_高通股份有限公司_202380017780.8

信息处理装置、推论装置、机器学习装置、信息处理方法、推论方法及机器学习方法_株式会社荏原制作所_202380020814.9

信息处理装置、推论装置、机器学习装置、信息处理方法、推论方法及机器学习方法_株式会社荏原制作所_202380019756.8

用于整数深度学习原语的动态精度管理_英特尔公司_201810420883.X

一种机器学习多角度扫描装置_南京邮电大学通达学院_202420399308.7

基于机器学习的压缩空气泄漏检测_生态植物科技创新有限公司_202410286957.0

识别相关技术

翻拍识别模型训练、图像识别方法、装置、设备及介质_中国平安人寿保险股份有限公司_202010142973.4

一种手势识别方法、手势识别装置及智能设备_深圳市优必选科技股份有限公司_202110194549.9

行人多目标跟踪识别方法及跟踪识别装置_青岛科技大学_202210581127.1

一种科技金融风险识别装置和识别方法_广东技术师范大学_202410688342.0

指纹识别装置、电子设备和指纹识别的方法_深圳市汇顶科技股份有限公司_202011563420.2

语音识别模型训练、语音识别方法、装置和电子设备_马上消费金融股份有限公司_202410034887.X

基于目标检测与人脸识别的考勤智能识别系统及方法_长春职业技术学院_202411017239.X

基于深度学习的电力设备故障识别方法及识别系统_中国长江电力股份有限公司_202410761437.0

识别模型训练、眼底特征的识别方法、装置、设备及介质_平安科技(深圳)有限公司_201910882247.3

内容风险识别方法和系统_支付宝(杭州)信息技术有限公司_202210767655.6

方法相关技术

显微方法_卡尔蔡司医疗技术股份公司_202010076715.0

发酵方法_德希尼布能源法国公司_202410736056.7

诊断方法_夸登特健康公司_202111601219.3

一种多维数据的抽样方法、电路仿真方法和电路分析方法_贝叶斯电子科技(绍兴)有限公司_202410807426.1

检漏方法_华虹半导体(无锡)有限公司_202111255430.4

数据生成方法、业务回复方法及设备_马上消费金融股份有限公司_202410333977.9

图像编码/解码方法和图像数据的发送方法_LX半导体科技有限公司_202410979218.X

模型训练方法、图像分类方法及相关装置_马上消费金融股份有限公司_202410347300.0

模型构建方法、文本处理方法及装置_马上消费金融股份有限公司_202410521943.2

显示面板及其补偿数据确定方法、驱动方法_合肥维信诺科技有限公司_202410383273.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度学习的非法网站识别方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务