Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 海南藏族自治州藏文信息技术研究中心周庆国获国家专利权

海南藏族自治州藏文信息技术研究中心周庆国获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉海南藏族自治州藏文信息技术研究中心申请的专利网络爬虫过滤方法及其设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114117179B

龙图腾网通过国家知识产权局官网在2025-09-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111391960.1,技术领域涉及:G06F16/951;该发明授权网络爬虫过滤方法及其设备是由周庆国;官却多杰;武强;索南多杰;公保加羊;拉玛杰;航尖才让;下吾卓玛;勒毛措;德青措;曼拉太;多杰仁青设计研发完成,并于2021-11-19向国家知识产权局提交的专利申请。

网络爬虫过滤方法及其设备在说明书摘要公布了:提供了网络爬虫过滤方法及其设备。提供了网络爬虫过滤方法及其设备。搜索引擎的性能一定程度上依赖网络爬虫网络内容获取的能力。本申请提出1网页向量表示方法;提出基于网页向量相似度的爬虫‑过滤算法用于爬取过滤待爬取的网页。通过实验表明:爬虫‑过滤算法在网络爬虫过程中,能够在覆盖合理的内容的同时绕过低质量或无关内容。优化了网络爬虫质量。

本发明授权网络爬虫过滤方法及其设备在权利要求书中公布了:1.一种网络爬虫爬取网络的方法,包括: 获取URL种子并添加到URL缓存;以及获取爬取目标并生成目标向量,其中,将爬取目标的一个或多个词和或一个或多个句子利用BERT模型生成目标向量,和将爬取目标的一个或多个图片输入深度神经网络,并从深度神经网络的非输入层也非输出层的中间层神经元获取输出生成图片向量作为目标向量; 从URL缓存获取第一类URL,爬取第一类URL对应的网页并提取一个或多个第二类URL添加到预加载缓存; 从预加载缓存获取第二类URL,预加载第二类URL对应的网页并根据预加载的第二类URL对应的网页生成网页向量; 若生成的网页向量同根据爬取目标生成的目标向量的距离小于指定阈值,通过生成的网页向量与目标向量来更新目标向量,将所述第二类URL作为第一类URL添加到所述URL缓存,以供后续对其进行爬取;若生成的网页向量同根据爬取目标生成的目标向量的距离不小于指定阈值,将被预加载的所述第二类URL丢弃,而不将其作为第一类URL添加到所述URL缓存;其中所述预加载第二类URL对应的网页并根据预加载的第二类URL对应的网页生成网页向量,包括: 从预加载的第二类URL对应的网页中提取一个或多个文本块,其中通过HTML标签识别网页中的文本块; 根据所述一个或多个文本块的每个计算文本块的向量; 计算所述一个或多个文本块的每个文本块的向量的统计值,作为预加载的第二类URL对应的网页的网页文本内容向量; 从预加载的第二类URL对应的网页中提取一个或多个图片,其中通过HTML标签识别网页中的图片; 根据所述一个或多个图片的每个计算图片向量; 计算所述一个或多个图片的每个的图片向量的统计值,作为预加载的第二类URL对应的网页的网页图片内容向量; 根据所述网页文本内容向量与所述网页图片内容向量得到所述预加载的第二类URL对应的网页的网页向量;以及其中所述根据所述一个或多个文本块的每个计算文本块的向量,包括: 对于所述根据所述一个或多个文本块的每个文本块,获取构成当前文本块的一个或多个句子; 将所述一个或多个句子的每个输入给BERT模型实例,以得到同输入的句子对应的句向量; 计算所述一个或多个句子的每个的句向量的统计值,作为当前文本块的向量; 将所述根据所述一个或多个文本块的第i个文本块Bi所对应的向量记为VBi,Bi=Si1,Si2,…,Sij,…,Sini表示文本块Bi包括多个句子,句子Sij是文本块Bi的第j个句子,句子Sij的句向量记为VSij,ni是文本块Bi中包括的句子数量,ni、i与j为正整数1 =j=ni; 其中将所述预加载的第二类URL对应的网页的网页文本内容向量记为Ptext,其中N是所述预加载的第二类URL对应的网页中的文本块数量,N是正整数,1=i=N; 其中将所述预加载的第二类URL对应的网页的网页图片内容向量记为Pimage,其中M是所述预加载的第二类URL对应的网页中的图片数量,M是正整数,VIp是所述预加载的第二类URL对应的网页中的第p个图片的图片向量,其中p是正整数,1 =p=M;以及所述预加载的第二类URL对应的网页的网页向量Vpage=Ptext,Pimage;或者所述预加载的第二类URL对应的网页的网页向量Vpage=Ptext+Pimage。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人海南藏族自治州藏文信息技术研究中心,其通讯地址为:813000 青海省海南藏族自治州共和县恰卜恰镇城北新区新寺路与兴海路交汇处;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。