买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:社治无忧(成都)智慧科技有限公司
摘要:本发明公开了一种通过多语料库发现新词的方法和系统,涉及文本处理技术领域,包括:从多平台获取文本语句和短语数据,并进行预处理;采用不同分词策略,将得到的相邻词组合取交集,得到的新发现词语集合有词语的时候,若待定词集存在该词语,该词语被召回新词集,更新匹配时间、累计数量;否则若该词语在新词集,对该词语更新匹配时间、累计数量;不在新词集而在预留词集中时对该词语更新热度时间、累计热度;都不在则在预留词集中初始化该词语;词语在预留词集、新词集、待定词集流转并根据设定规则在预留词集消亡或从待定词集消亡。本发明动态更新分词词库,通过热度分析算法及动态更新热词库规则、可以及时捕捉到新出现的热词,同时原有的热词也会消亡,从而保持分词结果的准确性和实用性。
主权项:1.一种通过多语料库发现新词的方法,其特征在于,包括:步骤S1、从多平台获取文本语句和短语数据,并进行预处理;步骤S2、基于hanlp词性标注及词组合并策略,将出现频率超过设定次数的相邻词组合成新词语结果集B1;调用大模型获取文本语句中的新词或短语集合得到新词语结果集B2;取新词语结果集B1和新词语结果集B2的交集,得到新发现词语集合;步骤S3、当新发现词语集合有词语的时候,判断待定词集是否存在该词语,如果存在,待定词集中的该词语被召回并重新进入新词集,更新匹配时间、累计数量;否则判断该词语是否在新词集,如果存在,对该词语更新匹配时间、累计数量;如果不存在,则判断该词语在预留词集中是否存在,如果存在,对该词语更新热度时间、累计热度;若该词语没有在预留词集,则在预留词集中初始化该词语;步骤S4、词语流转:预留词集的词语热度值超过新词预集合流转新词集的设定阈值时,该词语从预留词集流转到新词集;新词集的词语热度时间已过期,其热度衰减到热度值消亡阈值下限,词语从新词集流转到待定词集;词语热度值达到第一设置条件,词语在预留词集消亡;待定词集中的词语,再次被新词匹配后,该词语重新进入新词集;当词语热度低于阈值下限,该词语从待定词集消亡。
全文数据:
权利要求:
百度查询: 社治无忧(成都)智慧科技有限公司 一种通过多语料库发现新词的方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。