买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨工程大学;中国船舶重工集团公司第七一四研究所
摘要:基于疲劳仿真模型的拟人爬虫方法,涉及信息获取领域。解决了现有爬虫方法,爬取效率低的问题。本发明方法包括:S1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集,获得初始数据集;S2、对初始数据集进行预处理;S3、构建疲劳仿真模型;S4、将预处理后的数据集划分为两部分,一部分作为训练集,另一部分作为验证集;利用训练集对疲劳仿真模型进行训练,获得训练后的疲劳仿真模型;S5、利用验证集和训练后的疲劳仿真模型,获得进行当前爬虫任务所需的休眠时间间隔后,将休眠时间间隔与爬虫程序进行整合,获得整合后的爬虫程序,再利用整合后的爬虫程序进行网络爬虫,从而实现拟人爬虫。主要用于信息采集。
主权项:1.基于疲劳仿真模型的拟人爬虫方法,其特征在于,包括如下步骤:S1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集,获得初始数据集;所述的初始数据集由所有个体对所有目标文章进行采集操作获得的m×n组时间间隔序列构成;m和n均为整数;获得初始数据集的实现方式为:步骤S11、进入任意目标网站;步骤S12、利用m个个体均对同一目标网站下的第i个目标文章进行点击,并记录每个个体的点击时间tpi1,i的初始值为1;其中,tpi1为第P个个体对第i个目标文章进行点击的时间;P和i均为整数,且i=1,2,3……,n,P=1,2,3……,m;步骤S13、m个个体均选择所需下载的第i个目标文章属性,并进行点击选择属性操作,同时记录每个个体的点击时间tpi2,所述目标文章属性为PDF或word;其中,tpi2为第P个个体对第i个目标文章的属性进行点击选择操作的时间;步骤S14、m个个体均根据选择的第i个目标文章的属性,进行点击下载操作,并记录每个个体的点击时间tpi3;tpi3为第P个个体对第i个目标文章的属性选择后,对所选择的属性的目标文章进行点击下载操作的时间;步骤S15、每个个体点击返回上一级目录,回到目标网站,并记录每个个体的点击时间tpi4;tpi4为第P个个体对第i个目标文章进行点击下载后,点击返回上一级目录时的点击时间;步骤S16、根据tpi1、tpi2、tpi3和tpi4,获得每个个体对第i个目标文章进行采集操作的时间间隔序列SPi={tpi2-tpi1,tpi3-tpi2,tpi4-tpi3},其中,SPi为第P个个体对第i个目标文章进行采集操作获得的一组时间间隔序列;步骤S17、使i=i+1,返回步骤S12,直至获得所有个体对所有文章进行采集操作获得的m×n组时间间隔序列,并由所有个体对所有目标文章进行采集操作获得的m×n组时间间隔序列构成初始数据集;S2、对初始数据集进行预处理,获得预处理后的数据集;S3、构建疲劳仿真模型;所述疲劳仿真模型采用LSTM的神经网络模型实现;S4、将预处理后的数据集划分为两部分,一部分作为训练集,另一部分作为验证集;利用训练集对疲劳仿真模型进行训练,使疲劳仿真模型对训练集进行深度学习,获得训练后的疲劳仿真模型;S5、利用验证集和训练后的疲劳仿真模型,获得进行当前爬虫任务所需的休眠时间间隔后,将休眠时间间隔与爬虫程序进行整合,获得整合后的爬虫程序,再利用整合后的爬虫程序进行网络爬虫,从而实现拟人爬虫。
全文数据:
权利要求:
百度查询: 哈尔滨工程大学 中国船舶重工集团公司第七一四研究所 基于疲劳仿真模型的拟人爬虫方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。