买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:深圳市万普拉斯科技有限公司
摘要:本申请公开一种文本搜索方法、终端、可读存储介质,该方法包括获取待搜索词汇;获取与所述待搜索词汇存在语义和或语法相关的关联词汇,所述待搜索词汇以及所述关联词汇均为所述待搜索词汇的关键词;以及利用所述关键词在文本库中的各个文本中进行搜索,并获取包含至少一个关键词的文本的步骤,由于待搜索词汇的关键词包括与所述待搜索词汇存在语义和或语法相关的关联词汇,通过利用所述待搜索词汇的各个关键词在各个文本中进行搜索,获取包含至少一个关键词的文本,可以扩大搜索范围,提高搜索到目标文本的概率。
主权项:1.一种文本搜索方法,其特征在于,包括以下步骤:获取待搜索词汇;根据所述待搜索词汇从矩阵表中获取其关联词汇,将所述待搜索词汇及所述关联词汇作为关键词,其中,创建矩阵表的步骤包括:获取为特定词汇构建的初始矩阵表;所述初始矩阵表中的各个特定词汇及其关联词汇具有配对映射关系,对于缺少关联词汇的特定词汇所对应的关联词汇为空;统计所述矩阵表中具备关联词汇的特定词汇的数量;在所述数量小于预定数量值的情况下,对于所述矩阵表中缺少关联词汇的特定词汇,利用词嵌入模型得到其对应的关联词汇,并将得到的所述关联词汇写入所述矩阵表中,直到所述具备关联词汇的特定词汇的数量达到所述预定数量为止,其中,所述利用词嵌入模型得到其对应的关联词汇包括:获取语料库;从所述语料库中的各个文档搜索出现了各个特定词汇的位置,获取各个位置处特定词汇的预设窗口内的上下文词;确定各个上下文词的权重,输出权重大于预设权重的上下文词作为与特定词汇具备语义语法相关的关联词汇;其中,根据各个上下文词出现的频率确定各个上下文词的权重;利用所述关键词对文本库中的各个文本进行搜索,并获取包含至少一个关键词的文本;其中,得到预设窗口的步骤包括:获取至少两个的终端内的文档;从各个文档搜索特定词汇的位置,并针对不同的测试窗口,获取各个位置处特定词汇的各个不同测试窗口内的上下文词;确定各个特定词汇在不同测试窗口的各个上下文词的权重,输出权重大于预设权重的上下文词作为与特定词汇具备语义语法相关的的关联词汇;对比各个特定词汇在不同测试窗口的关联词汇的数量,以及在不同测试窗口下的各个关联词汇与特定词汇的关联度,将关联度高于预设阈值和或关联词汇的数量高于预设数量的测试窗口作为所述预设窗口。
全文数据:
权利要求:
百度查询: 深圳市万普拉斯科技有限公司 文本搜索方法、终端、可读存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。