恭喜北京计算机技术及应用研究所刘琦获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京计算机技术及应用研究所申请的专利一种基于门控主题模型的无监督关键词抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117390157B 。
龙图腾网通过国家知识产权局官网在2025-05-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311341725.2,技术领域涉及:G06F16/3329;该发明授权一种基于门控主题模型的无监督关键词抽取方法是由刘琦;杨雨婷;余增文;贺垚;范昕煜;田宗凯;赵勤博设计研发完成,并于2023-10-17向国家知识产权局提交的专利申请。
本一种基于门控主题模型的无监督关键词抽取方法在说明书摘要公布了:本发明涉及一种基于门控主题模型的无监督关键词抽取方法,属于人工智能、大数据、自然语言处理领域。本发明提出了一种语义自适应的文档语义表示方法,在整个语料库上训练一个神经主题模型来挖掘该领域的相关主题,并采用门控机制对文档主题进行独立加权,使具有较高语义丰富度的文档被分配相对更多的主题;利用文档主题信息设计了一种新的关键词评分算法,同时考虑了主题相似度与主题重要度对关键词评判的影响。通过这两方面因素的折衷,避免了对文本核心主题的过度关注,从而提高了所抽取关键词的多样性。
本发明授权一种基于门控主题模型的无监督关键词抽取方法在权利要求书中公布了:1.一种基于门控主题模型的无监督关键词抽取方法,其特征在于,该方法包括如下步骤:步骤一:分词及词性标注在对输入文本编码之前,需要先对原始的自然语言文本数据进行预处理;步骤二:名词短语抽取基于POS标注结果,只保留了原文本中的名词性短语作为候选关键词;步骤三:文档编码及候选词表示基于GloVe嵌入对文档单词和候选关键词进行编码以获取词嵌入表示;步骤四:主题建模S41、首先,对于语料库中任意一篇文档d,利用步骤三中得到的词嵌入构造d的上下文向量表示zd;S42、从主题建模的角度出发,采用门控机制来分配文档d的主题,文档表示为主题嵌入的加权求和,进而将文档上下文表示zd重构为另一种表示主题表示形式S43、在得到了文档上下文向量表示zd及其主题表示rd之后,采用对比学习策略对模型参数进行优化,对比学习的目标为最小化损失函数S44、以最小化为目标对主题模型进行训练,在整个语料库上抽取一组主题表示MT={m1,m2,…,mK},并确定每篇输入文档关于这K个主题的权重向量pd={w1,w2,…,wk};步骤五:关键词抽取同时考虑主题相似度与主题重要度对关键词评判的影响,对于每个候选词npi,计算得到其关于K个主题的得分,npi的最终得分为这K个得分的最大值,根据最终得分对所有候选词进行排序,并抽取排名靠前的N个候选词作为文档d的关键词。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京计算机技术及应用研究所,其通讯地址为:100854 北京市海淀区永定路51号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。