Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

爬虫框架专利

发布时间:2020-12-31 11:16:46 来源:龙图腾网 导航: 龙图腾网> 最新专利技术> 爬虫框架

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深圳市比希科技有限公司

申请日:2020-10-22

公开(公告)日:2020-12-29

公开(公告)号:CN112148950A

专利技术分类:...索引; 网络抓取技术[2019.01]

专利摘要:本发明提供了一种爬虫框架,包括:调度器、下载器、页面解析器,调度器中预先设置有爬虫抓取的第一个URL;爬虫框架进入调度器的循环体;在下载页面功能中,爬虫框架调用下载器下载第一个URL,下载器中默认存有请求头部信息列表、使用时也可以自定义headers信息;下载器下载的内容将由解析内容功能调用页面解析器进行配置数据提取规则获取数据;解析内容获得的数据中,获取的URL可以存入内存缓存数据库中,存储时使用hash数据类型,URL作为键;解析的数据直接存入消息队列,最终存入数据库中。本发明具有较高的并发性能和较强的使用灵活性。

专利权项:1.一种爬虫框架,其特征在于,包括:调度器、下载器、页面解析器,调度器中预先设置有爬虫抓取的第一个URL;爬虫框架进入调度器的循环体;在下载页面功能中,爬虫框架调用下载器下载第一个URL,下载器中默认存有请求头部信息列表、使用时也可以自定义headers信息;下载器下载的内容将由解析内容功能调用页面解析器进行配置数据提取规则获取数据;解析内容获得的数据中,获取的URL可以存入内存缓存数据库中,存储时使用hash数据类型,URL作为键,以防止缓存数据中URL重复;使用高并发的内存数据库以减小数据缓存对系统性能的影响,从而提高爬虫的并发性能;解析的数据可以直接存入消息队列,最终存入数据库中,使用消息队列作为数据缓冲区将数据解析与数据库解耦,以减弱相对较低的数据库并发性能对数据抓取性能的限制,提高爬虫的并发性能;如果循环体未达到结束条件,那么会继续执行循环体进入下一次循环,但此时下载器中使用的URL来自缓存数据库,每次从缓存数据库取出一条URL,便会将该URL从缓存数据库中删除;如果循环体达到结束条件,整个爬虫框架执行就结束。

百度查询: 深圳市比希科技有限公司 爬虫框架

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。