恭喜西安博达软件股份有限公司李传咏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜西安博达软件股份有限公司申请的专利一种网页内容结构化处理方法、装置、系统及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119149622B 。
龙图腾网通过国家知识产权局官网在2025-03-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411598434.6,技术领域涉及:G06F16/25;该发明授权一种网页内容结构化处理方法、装置、系统及存储介质是由李传咏;陈宁;张崇凯;卫江波设计研发完成,并于2024-11-11向国家知识产权局提交的专利申请。
本一种网页内容结构化处理方法、装置、系统及存储介质在说明书摘要公布了:本申请公开一种网页内容结构化处理方法、装置、系统及存储介质,涉及网页内容处理技术领域。该方法包括获取模板URL,请求URL地址得到第一HTML标签;解析转化为Document对象,提取Elements对象集合;去除非解析标签,得到过滤后的Elements对象集合,进行循环,设置CurrentId值;定义Tag对象并组装Listtag集合,构建树形结构对象;通过降低节点深度和整合节点的优化方法,进一步简化树形结构,实现了从网页中提取结构化数据并保存到数据库中的目标。本申请实施例简化了数据提取的复杂度,提高了数据提取的效率,减少了存储空间的占用,降低了用户的学习成本和使用门槛。
本发明授权一种网页内容结构化处理方法、装置、系统及存储介质在权利要求书中公布了:1.一种网页内容结构化处理方法,其特征在于,所述方法包括:获取模板URL,请求所述模板URL的URL地址,得到第一HTML标签;解析所述第一HTML标签,将所述第一HTML标签转化为Document对象,提取所述Document对象中的Elements对象集合;去除所述Elements对象集合中的非解析标签,得到过滤后的Elements对象集合,所述非解析标签包括link、script和style标签;对所述过滤后的Elements对象集合进行循环,并为所述过滤后的Elements对象集合中的每一个对象设置CurrentId值,所述CurrentId值为每一个对象对应循环的序号;定义Tag对象并组装Listtag集合,构建树形结构对象,所述Tag对象包括id、parentId、name、text、src、href属性,其中,id表示标签id,id值等于CurrentId值;parentId表示父标签id,parentId值等于父标签的CurrentId值,若不存在父标签,则parentId值为0;name表示标签名称;src表示当前标签的src属性值,若不存在该属性,则src属性值为Null;href表示当前标签的href属性值,若不存在该属性,则href属性值为Null;根据所述Listtag集合、id和parentId构建为ListTreeString树形结构对象;解析所述树形结构对象,生成树形结构对象数据,所述树形结构对象数据包括节点数据,对所述节点数据进行筛选和命名,形成模板数据和所述模板数据的属性名,将所述模板数据保存至模板数据库中;解析同类站点内容,匹配所述模板数据,若无法匹配所述模板数据,则解析失败,并进行记录;根据所述模板数据的属性名匹配第二HTML标签,若所述第二HTML标签包括href属性或src属性,则判断所述href属性或所述src属性的值是文件还是外联,如果是文件,则根据第二HTML标签中的链接下载所述文件;如果是外联,则保存第二HTML标签中的链接;将所述过滤后的Elements对象集合中每个对象的CurrentId值、树形结构对象数据以及解析同类站点内容时得到的文件或链接,结合所述模板数据的属性名,组装成结构化对象数据,并将所述结构化对象数据保存至采集数据库。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安博达软件股份有限公司,其通讯地址为:710077 陕西省西安市高新区锦业路125号第201幢13层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。