买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东方财富信息股份有限公司
摘要:本发明要解决的技术问题是:单纯的使用关键词算法,得到的权重是统计意义上的关键词重要程度,忽略了文章结构中可以获得的信息。为了解决上述技术问题,本发明的技术方案是提供了一种文章关键词提取方法。本发明可根据具体文章的长度以及所具体采用的现有的关键词提取算法得到的关键词权重分布,动态地决策截断位置,从而兼容不同长度、不同主题多样性的文章,对于任何类型的文章进行词的截取时可以确保无遗漏地剔除低权重的词,能够对是否是关键词做出更为准确的判断。本发明在结合文章结构的基础上,利用标题提升核心关键词权重,更精确地提取关键词,得到的关键词结果更接近文章主题。
主权项:1.一种文章关键词提取方法,其特征在于,包括以下步骤:步骤1、对文章标题进行分词,去除停用词后,获得各标题候选关键词其对应的权重;步骤2、对文章正文进行分词,去除停用词后,获得各正文候选关键词其对应的权重;步骤3、遍历正文候选关键词:若当前正文候选关键词在文章标题中出现过,则提升当前正文候选关键词的权重后,再将当前正文候选关键词及更新后的权重记录到关键词列表;若当前正文候选关键词未在文章标题中出现过,则将当前正文候选关键词及其权重直接记录到关键词列表;步骤4、遍历标题候选关键词:若当前标题候选关键词已经记录在关键词列表中,则跳过;若当前标题候选关键词未记录在关键词列表中,则调整当前标题候选关键词的权重后,将当前标题候选关键词及其更新后的权重记录到关键词列表;步骤5、将关键词列表中所记录的所有候选关键词按照权重由大至小进行排序,将每两个相邻的候选关键词作为一对候选关键词,计算每对候选关键词的权重差值;步骤6、若连续k对候选关键词的权重差值均小于阈值θ,则将关键词列表中第k对候选关键词中最后一个候选关键词所在位置记录为权重截断位置,获得关键词列表从第一个候选关键词开始至权重截断位置的所有候选关键词组成的权重截断关键词集合;步骤7、依据关键词列表的长度L计算得到截断长度L1,将关键词列表中候选关键词所在位置与截断长度L1相对应的位置定义为长度截断位置,获得关键词列表从第一个候选关键词开始至长度截断位置的所有候选关键词组成的长度截断关键词集合;步骤8、若权重截断关键词集合的长度小于长度截断关键词集合的长度,则将权重截断关键词集合作为最终的关键词集合;若长度截断关键词集合的长度小于权重截断关键词集合的长度,则将长度截断关键词集合作为最终的关键词集合;若权重截断关键词集合的长度等于长度截断关键词集合的长度,则将权重截断关键词集合及长度截断关键词集合中的任意一个集合作为最终的关键词集合。
全文数据:
权利要求:
百度查询: 东方财富信息股份有限公司 一种文章关键词提取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。