恭喜平安科技(深圳)有限公司刘涛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜平安科技(深圳)有限公司申请的专利基于网页正文提取方法、装置、设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115344772B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210989853.7,技术领域涉及:G06F16/953;该发明授权基于网页正文提取方法、装置、设备及存储介质是由刘涛;王燕蒙;王少军;李剑锋设计研发完成,并于2022-08-18向国家知识产权局提交的专利申请。
本基于网页正文提取方法、装置、设备及存储介质在说明书摘要公布了:本发明涉及智能决策领域,揭露一种基于网页正文提取方法,包括:将待提取网页进行特征提取,得到网页数据特征集,并将网页数据特征集进行编码,得到网页数据向量集;对网页数据向量集进行召回处理,得到索引网页数据集,并通过分析索引网页数据集所属的分类标签,确定待提取网页对应的网页类型;判断网页类型是否为文字型网页;当网页类型不为文字型网页,则根据正则规则提取网页正文;当网页类型为文字型网页,则利用网页正文提取模型提取网页正文。本发明还涉及一种区块链技术,网页正文可存储在区块链节点中。本发明还提出一种基于网页正文提取装置、设备以及介质。本发明可以提高网页正文提取的效率及准确率。
本发明授权基于网页正文提取方法、装置、设备及存储介质在权利要求书中公布了:1.一种基于网页正文提取方法,其特征在于,所述方法包括:获取待提取网页,将所述待提取网页进行特征提取,得到网页数据特征集,并将所述网页数据特征集进行编码,得到网页数据向量集;对所述网页数据向量集进行召回处理,得到索引网页数据集,并通过分析所述索引网页数据集所属的分类标签,确定所述待提取网页对应的网页类型;判断所述待提取网页的网页类型是否为文字型网页;当所述待提取网页的网页类型不为文字型网页,则根据预设的正则规则提取所述待提取网页的网页正文;当所述待提取网页的网页类型为文字型网页,则利用训练完成的网页正文提取模型提取所述待提取网页的网页正文;其中,所述对所述网页数据向量集进行召回处理,得到索引网页数据集,包括:获取所述网页数据向量集的向量标签,根据所述向量标签利用预设的开源向量数据库创建分区区域;将所述网页数据向量集存储至所述分区区域中,并为每个所述分区区域中的网页数据向量集创建索引,得到所述索引网页数据集;所述将所述待提取网页进行特征提取,得到网页数据特征集,包括:将所述待提取网页转化为文本网页,对所述文本网页进行分词处理,得到分词文本集;利用预设算法计算所述分词文本集中每个词语的权重,得到词语权重;从所述分词文本集中提取所述词语权重大于预设阈值的词语作为网页关键词;根据预设词典对所述网页关键词进行词性标注,确定所述网页关键词的词性;根据所述网页关键词的词性,确定所述待提取网页的网页数据特征集。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人平安科技(深圳)有限公司,其通讯地址为:518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。