Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于机器学习的文档数值指标的抽取方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广发证券股份有限公司

摘要:本发明公开了一种基于机器学习的文档数值指标的抽取方法及装置,该方法包括:根据预设的规则将待处理文档划分为重点段落和非重点段落;采用自然语言处理和深度学习构建指标抽取模型,并将所述重点段落和所述非重点段落分别输入所述指标抽取模型,所述指标抽取模型分别输出重点段落指标和非重点段落指标;将所述重点段落指标和所述非重点段落指标进行指标整合,并输入预设的指标特征评分模型对所述重点段落指标和所述非重点段落指标进行筛选,输出指标抽取结果。本发明提高了指标抽取的效率以及准确率。

主权项:1.一种基于机器学习的文档数值指标的抽取方法,其特征在于,包括:根据预设的规则将待处理文档划分为重点段落和非重点段落;采用自然语言处理和深度学习构建指标抽取模型,并将所述重点段落和所述非重点段落分别输入所述指标抽取模型,所述指标抽取模型分别输出重点段落指标和非重点段落指标;其中,采用自然语言处理和深度学习构建指标抽取模型,并将所述重点段落和所述非重点段落分别输入所述指标抽取模型,所述指标抽取模型分别输出重点段落指标和非重点段落指标,包括:根据构建的正则对文本集进行逐条匹配,并在匹配过程中记录命中的文本、数值和标记命中类型特征为正则匹配;对于重点段落和非重点段落中的关键词召回,通过关键词,对文本集进行召回;对于重点段落和非重点段落中的句法分析建立指标候选集,对关键词召回的句子,通过百度开源的ddparser句法分析包进行句法结构分析,编程实现主谓宾关系、修饰关系、副动关系的提取,得到句法分析召回的指标名称;将句法分析召回的指标名称与业务提供的指标名称进行相似度计算;其中,计算方法为通过jieba的搜索分词模式进行分词,取两个名称分词结果的并集,计算并集词占业务提供的指标名称的比例,得到比例结果,根据比例结果确定目标指标;建立TextCNN模型输出句子语义粒度的评分特征;其中,TextCNN模型输出0-1之间的分数,0代表从语义上,该句子非目标指标句,1为该句子是目标指标句;将所述重点段落指标和所述非重点段落指标中的指标进行标记,并进行指标特征整理和归一化输入逻辑回归模型进行训练,得到所述预设的指标特征评分模型;将所述重点段落指标和所述非重点段落指标进行整合,输入所述预设的指标特征评分模型中,过滤低于第一阈值的指标,输出指标抽取结果。

全文数据:

权利要求:

百度查询: 广发证券股份有限公司 一种基于机器学习的文档数值指标的抽取方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。