一种基于TextCNN的主题爬虫方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：智文有限公司

摘要：本申请公开了一种基于TextCNN的主题爬虫方法及系统，所述方法包括：向目标URL网页发起请求以下载网页，返回下载的html页面；接收下载的html页面，并进行HTML解析；存储经过HTML解析后的网页的时间ID、URL链接、URL上一级链接、URL锚文本、网页标题和正文；同时存储由URL和URL评分值组成的元数据；在对所有URL完成HTML解析后，先利用训练好的评分器模型进行主题相关度评分并存储URL和URL评分，再根据评分结果分发URL种子；其中，所述评分器模型为由输入层、卷积层、池化层、全连接层以及输出层构成的卷积神经网络。本申请克服了传统方法因爬取与主题无关的网页而造成的爬取效率低的问题，提高了网页的爬取效率。

主权项：1.一种基于TextCNN的主题爬虫方法，其特征在于，包括：向目标URL网页发起请求以下载网页，返回下载的html页面；接收下载的html页面，并进行HTML解析；存储经过HTML解析后的网页的时间ID、URL链接、URL上一级链接、URL锚文本、网页标题和正文；同时存储由URL和URL评分值组成的元数据；在对所有URL完成HTML解析后，先利用训练好的评分器模型进行主题相关度评分并存储URL和URL评分，再根据评分结果分发URL种子；其中，所述评分器模型为由输入层、卷积层、池化层、全连接层以及输出层构成的卷积神经网络；所述评分器模型中，输入层的输入值为网页特征的锚文本特征向量：针对解析后的HTML页面，提取当前网页的URL、上一级网页URL、URL的锚文本、URL的标题作为特征词；对于特征词中的URL的锚文本、URL的标题，进行以下的预处理过程：中文分词：将特征词中的URL的锚文本、URL的标题进行中文分词；去停用词和文本填充：将中文分词后获得的特征词中没有语义含义的停用词，并将删除后的停用词采用空格进行填充；该步骤处理后的特征词，与当前网页的URL、上一级网页URL共同作为网页特征；向量空间表示：对网页特征进行向量化表示，得到锚文本特征向量；所述评分器模型中：输入层的输入值为网页特征的锚文本特征向量；卷积层用于对锚文本特征向量进行特征提取，该卷积层设计有6*4个卷积核，分别使用filterwindowsize2,3,4,5,6,7个词数作为卷积核的大小，经过该层卷积后的向量Vector的shape分别为198*1,197*1，196*1，195*1,194*1,193*1的向量；池化层采用最大值池化方法，用于对卷积层提取后的特征进行文本维度的降低以及特征统一；全连接层用于对池化层输出的特征向量进行拼接，然后提交给输出层；输出层用于对拼接后的特征向量进行分类任务，采用交叉熵作为损失函数；在使用交叉熵的时候直接使用其类别索引0或1。

全文数据：

权利要求：

百度查询：智文有限公司一种基于TextCNN的主题爬虫方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于TextCNN的主题爬虫方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务