买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海观安信息技术股份有限公司
摘要:本发明公开了一种敏感数据接口爬虫识别方法及装置,所述方法包括:获取网站的web访问日志;根据web访问日志对爬虫进行识别;判断爬虫类型;按照不同的爬虫类型使用爬虫的参数向网站发起请求,获取请求响应的内容并按照请求url归集请求响应的内容,将网站返回的内容的文本部分按照归集域名分组进行存储;提取存储的文本的特征数据,每个域名下的文本对应提取出重要链接地址、文本关键词结果;识别文本关键词结果中是否敏感信息,输出是否涉敏,涉敏数据类型;本发明的优点在于:对爬虫动机进行有效识别,识别出涉及敏感信息的爬虫行为,保障网络信息安全。
主权项:1.一种敏感数据接口爬虫识别方法,其特征在于,所述方法包括以下步骤:步骤一:获取网站的web访问日志;步骤二:根据web访问日志对爬虫进行识别;步骤三:判断爬虫类型;所述步骤三中爬虫类型包括修改url中的参数进行页面切换或者相同url通过修改POST内容请求传不同参数进行页面切换;步骤四:按照不同的爬虫类型使用爬虫的参数向网站发起请求,获取请求响应的内容,并按照请求url归集请求响应的内容,将网站返回的内容的文本部分按照归集域名分组进行存储;步骤401:按照不同的爬虫类型使用爬虫的参数向网站发起Request请求,请求中包含额外的headers信息,从而进行爬虫请求模拟;步骤402:对爬虫访问的网站进行页面解析,获取网站页面返回的信息,得到请求响应的内容;步骤403:按照请求url归集请求响应的内容,如果是通过修改url中的参数进行页面切换模式的爬虫地址,则保留爬虫地址的非参数部分,作为归集域名,如果通过修改POST内容请求传不同参数进行页面切换模式的爬虫地址,直接使用爬虫地址的域名作为归集域名;将网站返回的多个文本部分按照归集域名分组进行存储;步骤五:提取存储的文本的特征数据,每个域名下的文本对应提取出重要链接地址、文本关键词结果;通过公式 计算词语频率,提取存储的文本中词语频率超过阈值的词语作为特征数据,每个域名下的文本按照词语频率对应提取出重要链接地址、文本关键词结果;其中,ni,j表示词语ti在文本j中出现的次数,表示文本j中所有词语频词和,表示语料库中所有词语频数之和,nti表示词语ti在语料库中出现的总频数;步骤六:使用敏感数据发现技术识别文本关键词结果中是否存在敏感信息,并输出对应的结果。
全文数据:
权利要求:
百度查询: 上海观安信息技术股份有限公司 一种敏感数据接口爬虫识别方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。