恭喜中联财联网科技有限公司李博获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中联财联网科技有限公司申请的专利一种网络爬虫代理隧道的负载均衡调度及异常重试方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN111240839B 。
龙图腾网通过国家知识产权局官网在2024-11-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202010019709.1,技术领域涉及:G06F9/50;该发明授权一种网络爬虫代理隧道的负载均衡调度及异常重试方法是由李博;龙永超设计研发完成,并于2020-01-08向国家知识产权局提交的专利申请。
本一种网络爬虫代理隧道的负载均衡调度及异常重试方法在说明书摘要公布了:本发明提供一种网络爬虫代理隧道的负载均衡调度及异常重试方法,属于网络搜索技术领域,适用于通过多条代理隧道进行分布式爬取网页信息的场景。本发明提供一种网络爬虫代理隧道的负载均衡调度及异常重试方法,有效提升代理隧道资源的利用率,大大降低高并发情形下网页访问的失败率,显著地缩短了任务爬取时间。
本发明授权一种网络爬虫代理隧道的负载均衡调度及异常重试方法在权利要求书中公布了:1.一种网络爬虫代理隧道的负载均衡调度及异常重试方法,包括以下步骤:S1、以正常爬取方式启动网络爬虫,在启动之前先结束掉该爬虫以当前方式运行中的进程;S2、在一天之内,定时启动每个网络爬虫,每个网络爬虫的启动时间都不相同,避免某个时间段内启动网络爬虫数量多导致代理隧道高并发增多;S3、根据每条代理隧道的权重进行排序,网络爬虫根据权重选择使用一条代理隧道;设置不同的权重,次数较高的权重较低,次数较低的权重较高,根据权重高低,选择使用权重最高的代理隧道,以此来达到代理隧道负载均衡的目的;S4、在数据库里分别记录下每个网络爬虫爬取失败和成功的网址;S5、在一定的时间段内,使用统一的数据库记录每条代理隧道的使用次数;S6、在一定的时间段内,使用统一的数据库记录每条代理隧道因高并发导致的失败次数;将爬取失败的网址记录到一个统一的数据库内,异常重试时从统一的数据库读取这些爬取失败的网址然后进行爬取,而不是重复从站点的起始网页爬取,网络爬虫的启动有两种方式,一种是正常启动,一种是异常重试启动,启动网络爬虫的时候会在命令行添加参数,正常启动在执行命令行后面带上--type=default参数,异常重试启动在执行命令后面带上--type=exception参数,爬虫启动后会根据type参数来判断是需要从站点起始网页爬取,还是从统一的数据库读取标记为爬取失败的网址然后爬取;S7、根据每条代理隧道因高并发导致的失败次数设置不同的权重,失败次数多的代理隧道权重较低,失败次数较少的代理隧道权重较高;S8、同正常爬取方式,每天以异常重试方式定时启动网络爬虫,在任意时间内,正常爬取方式启动的进程和异常重试方式启动的进程都最多只能存在一个;S9、以异常重试方式启动,启动时间在正常爬取启动一定时间之后,在启动之前先结束掉该爬虫以当前方式运行中的进程;S10、异常重试方式启动网络爬虫,从统一的数据库里读取爬取失败的网址,优先爬取失败次数最高的网址;S11、在数据库里记录已爬取成功的网页,爬取成功的网页直接跳过不再爬取;S12、异常重试方式爬取,根据网址的特征,判断出是属于首页、列表页还是详细内容页,分别进行爬取;S13、如果异常重试方式爬取网页再次失败,记录该网址的失败次数;S14、重复步骤S8到S13直至数据库里没有记录为爬取失败的网址。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中联财联网科技有限公司,其通讯地址为:100032 北京市西城区复兴门内大街28号凯晨世贸中心东座F4层639室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。