首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种自动化选择关键词组合抽取文本的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京烽火星空通信发展有限公司

摘要:本发明公开了一种自动化选择合适关键词组合抽取文本的方法,包括如下步骤:S1、对原始文本进行数据预处理,得到高质量的切词结果,所述数据预处理包括发现固定搭配短语和对原始文本进行切词以及过滤停用词;S2、选取候选关键词;S3、推荐关键词组合,基于原始文本中每条数据所包含的候选关键词,生成无序和有序的共现词组合集合,并以F1‑score作为评价指标,从无序和有序的共现词组合集合中推荐出用于搜索目标文本的合适的关键词组合。本发明通过使用机器来代替人工对用于搜索目标文本的关键词组合进行选择,有效降低了该项任务所需耗费的人力成本和时间成本,并可使选出的关键词组合结果具有质量更优、内容更完整的特点。

主权项:1.一种自动化选择关键词组合抽取文本的方法,其特征在于,包括如下步骤:S1、对原始文本进行数据预处理,得到切词结果,所述数据预处理包括发现固定搭配短语和对原始文本进行切词以及过滤停用词;S2、选取候选关键词,从S1中的切词结果中,选择出候选关键词,具体步骤如下:S2.1、使用TF-IDF算法,为原始文本中的每条数据所包含的词赋予基于其统计信息所计算得的权重;S2.2、基于原始文本训练LDA模型,使用训练好的LDA模型,计算原始文本中的每条数据所包含的词的主题突出度;S2.3、将各词基于TF-IDF算法计算得到的权重和基于训练好的LDA模型计算得的主题突出度相加,得到二者之和,再考虑各词词性对二者之和进行修正,得到各词的最终权重;S2.4、将原始文本中每条数据所包含的词依照其权重从高到低排序,设置权重的最小阈值,并将权重大于所设阈值的词作为候选关键词;S3、推荐关键词组合,基于原始文本中每条数据所包含的候选关键词,生成无序和有序的共现词组合集合,并以F1-score作为评价指标,从无序和有序的共现词组合集合中推荐出用于搜索目标文本的关键词组合;具体步骤如下:S3.1、基于原始文本中每条数据所包含的候选关键词,生成遍历长度为1到N的无序和有序的共现词组合集合;S3.2、从原始文本中抽出部分数据进行打标,将属于目标文本的数据打标为正样本,不属于目标文本的数据打标为负样本;S3.3、用各个无序和有序的共现词组合对打标文本进行搜索,基于搜索结果计算各组合的F1-score,设置好F1-score的最小阈值,将F1-score值大于所设阈值的共现词组合作为中间结果;S3.4、对中间结果去重,当中间结果中,存在所包含词完全相同的无序共现词组合和有序共现词组合时,设F1-score值阈值f,保留F1-score值大于阈值f的共现词组合,删掉F1-score值小于阈值f的共现词组合;当二者F1-score值相同时,保留无序共现词组合,删掉有序共现词组合,最终得到的所有共现词组合集合,即为所选择出的用于搜索目标文本的关键词组合。

全文数据:

权利要求:

百度查询: 南京烽火星空通信发展有限公司 一种自动化选择关键词组合抽取文本的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术