恭喜中国互联网络信息中心张恒获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国互联网络信息中心申请的专利一种基于关键词权重的涉黄网站检测方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113961855B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111098486.3,技术领域涉及:G06F16/958;该发明授权一种基于关键词权重的涉黄网站检测方法及装置是由张恒;张聪;刘冰;张立坤设计研发完成,并于2021-09-18向国家知识产权局提交的专利申请。
本一种基于关键词权重的涉黄网站检测方法及装置在说明书摘要公布了:本发明涉及一种基于关键词权重的涉黄网站检测方法及装置。该方法利用词频统计生成涉黄网站和非涉黄网站都出现的涉黄关键词的识别权重值即第一识别权重;然后对非涉黄网站中没有出现的涉黄关键词,通过KNN实现TextRank权重到涉黄识别权重的映射,进而计算涉黄识别权重即第二识别权重;然后提取待判别网站的文本特征,包括文本长度、命中关键词列表长度和命中关键词权重均值,利用逻辑回归模型对网站是否涉黄进行判别。本发明能够利用网页文本信息对网站内容进行涉黄自动判别,当通过爬虫程序获取到网站的文本内容后,通过本方法可快速有效的识别网站是否涉黄,降低人工识别的工作量,提高识别效率。
本发明授权一种基于关键词权重的涉黄网站检测方法及装置在权利要求书中公布了:1.一种基于关键词权重的涉黄网站检测方法,其特征在于,包括以下步骤:建立涉黄关键词词库,所述涉黄关键词词库包含涉黄关键词列表以及涉黄关键词权重列表;利用所述涉黄关键词词库,提取待判别网站的文本特征,并利用逻辑回归模型对待判别网站是否涉黄进行判别;所述建立涉黄关键词词库,包括:从网络下载各种网站的文本信息,并打上标签即涉黄、非涉黄,从而生成涉黄网站集合和非涉黄网站集合;根据涉黄网站中的文本信息,人工提取生成涉黄关键词列表;利用词频统计为涉黄网站和非涉黄网站都出现的涉黄关键词生成识别权重,称为第一识别权重;对只在涉黄网站出现而非涉黄网站中没有出现的涉黄关键词,通过KNN算法实现TextRank权重到涉黄识别权重的映射,得到第二识别权重;第一识别权重和第二识别权重构成涉黄关键词权重列表;采用以下步骤计算所述第二识别权重:利用TextRank算法对涉黄网站文本信息进行处理,生成涉黄关键词的TextRank权重列表;利用生成的带有第一识别权重的涉黄关键词列表及生成的涉黄关键词的TextRank权重列表,对KNN算法进行训练,第一识别权重作为KNN算法的输出Y,涉黄关键词的TextRank权重作为KNN算法的输入X;利用生成的KNN算法,对未出现在非涉黄网站的涉黄关键词列表,利用其TextRank权重值生成其涉黄识别权重,即第二识别权重;所述待判别网站的文本特征,包括:文本长度,命中关键词列表长度,命中关键词权重均值;所述命中关键词列表长度是指获取的待判别网站的分词中包含的涉黄关键词词条个数,设待判别网站分词后词条集合为N,涉黄关键词词条集合为M,则命中关键词列表长度为集合N∩M的长度;所述命中关键词权重均值是指命中关键词列表中关键词集合的权重均值,计算方式为:∑weights[N∩M]length(N∩M),其中∑weights[N∩M]表示命中关键词列表中各关键词的权重的和,length(N∩M)表示命中关键词列表长度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国互联网络信息中心,其通讯地址为:100190 北京市海淀区中关村南四街四号1号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。