首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

自动提取网页正文的方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:语联网(武汉)信息技术有限公司

摘要:本发明提供一种自动提取网页正文的方法及系统,该方法包括:对目标网页的DOM节点进行筛选,获取备选DOM节点;若父节点的文字内容长度大于预设长度阈值,即将备选DOM节点、备选DOM节点的父节点、父节点的父节点放入待处理列表中,否则忽略此备选节点;根据待处理列表中各个节点的标签,获取各个节点的初始评分;根据预设评分模型,获取待处理列表各个节点的附加分数;据待处理列表优选DOM节点列表中所有优选DOM节点的最终分数,获取内容节点。本发明与传统方法相比,不需要使用人工对文档作出标记,可以提高文档正文的提取效率;另外,由于本方案是从前端提取的,不是从服务端提取的,从而可以正确提取动态渲染页面。

主权项:1.一种自动提取网页正文的方法,其特征在于,包括:对目标网页的DOM节点进行筛选,获取备选DOM节点;若所述备选DOM节点的父节点的文字内容长度大于预设长度阈值,且所述父节点的父节点存在,则根据所述备选DOM节点的标签、所述父节点的标签、所述父节点的父节点的标签,获取所述备选DOM节点的初始评分、所述父节点的初始评分和所述父节点的父节点的初始评分;根据预设评分模型,获取所述备选DOM节点的附加分数;根据所述备选DOM节点的附加分数、所述备选DOM节点的标签与预设备选标签的匹配结果,获取所述父节点的附加分数和所述父节点的父节点的附加分数;根据优选DOM节点列表中所有优选DOM节点的最终分数,获取内容节点,所述优选DOM节点列表包括所述备选DOM节点、所述备选DOM节点的最终分数、所述父节点、所述父节点的最终分数和所述父节点的父节点、所述父节点的父节点的最终分数,所述最终分数根据所述初始评分和所述附加分数获得;所述预设评分模型应用如下公式获得:score=1+O.text.split[,,].length*2+L+Math.minO.text.length100,3+O.textNodeCount;其中,score表示所述备选DOM节点的附加分数;O.text.split[,,].length表示将所述备选DOM节点按照逗号分隔开以判断逗号个数;L表示将所述备选DOM节点按照句号分隔开以判断句号个数;Math.minO.text.length100,3表示将所述备选DOM节点的文本长度除100计入评分权重,最多不超过3分;O.textNodeCount表示所述备选DOM节点的子文本节点数;所述根据所述备选DOM节点的附加分数、所述备选DOM节点的标签与预设备选标签的匹配结果,获取所述父节点的附加分数和所述父节点的父节点的附加分数,包括:若所述备选DOM节点的标签与预设备选标签匹配,则将所述备选DOM节点的附加分数作为所述父节点的附加分数,将所述备选DOM节点的附加分数的一半作为所述父节点的父节点的附加分数。

全文数据:

权利要求:

百度查询: 语联网(武汉)信息技术有限公司 自动提取网页正文的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。