买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:大连海关技术中心
摘要:本发明涉及网络信息抓取技术领域,具体为一种主题门户网站爬虫方法。该方法包括网页页面链接分析和提取,根据主题网站设计正则表达式以识别出父页和子页链接;网页内容提取,对子页链接下的正文内容进行提取,并将提取的正文内容存储到一个静态类中;数据持久化存储,用于存储从每个子页链接中提取的正文内容;增量抓取,针对主题网页中的更新内容进行抓取,每次增量更新时,重新提取主题网站首页的链接,只对新链接进行处理。通过本爬虫程序获取的页面,几乎无重复,并且能够精确获取到所需的主题,并且可有效防止包含同样内容的网页被多次下载,避免浪费大量cpu资源,减轻数据库存取带来的负荷。
主权项:1.一种主题门户网站爬虫方法,其特征在于:包括网页页面链接分析和提取:根据主题网站设计正则表达式以识别出父页和子页链接,并且判断该页面是否属于主题网站内的链接,只对主题网站内的链接进行处理,若识别出为父页,则对父页中的子页链接进行提取,若识别出为子页,则对子页的正文内容进行提取;网页内容提取:对子页链接下的正文内容进行提取,并将提取的正文内容存储到一个静态类中,成功抽取后即退出;数据持久化存储:用于存储从每个子页链接中提取的正文内容;增量抓取:针对主题网站中的更新内容进行抓取,每次增量更新时,重新提取主题网站首页的链接,只对新链接进行处理;所述增量抓取中,通过布隆过滤器来筛选判断增量更新的网址链接,所述布隆过滤器中采用BitSet函数和hash函数配合使用对增量更新的网址链接进行判断,其中将BitSet函数定义为静态私有变量,所述BitSet函数中,将Path作为BitSet加载保存的路径;getBitSet方法从Path路径中加载并反序列化得到BitSet对象,若没有可以加载的对象,则返回false,重新生成新的实例,最后直接调用对象流将其序列化保存;hash函数针对网页链接中的每个字符都进行计算,对每个结果进行相加后,再与BitSet的长度进行取模,可以使hash分布更均匀,所述hash函数先选择一个种子,种子选择为质数,布隆过滤器中一共设置8个hash值,传入8个不同的hash种子,就能获取不同的hash值;当一个链接传入,调用布隆过滤器的addStringvalue方法,先判断value值是否为空,非空则再调用addValueStringvalue方法,并将addValue定义为静态变量。
全文数据:
权利要求:
百度查询: 大连海关技术中心 一种主题门户网站爬虫方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。