买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:成都购商云汇信息技术股份有限公司
摘要:本发明公开了一种基于配置表的分词搜索方法、装置、设备、介质及产品,涉及信息检索及自然语言处理技术领域。所述方法是在接收到由客户端发起的且携带有用于分词搜索文档的原始文本的分词搜索请求后,基于配置有与多个文本类型一一对应的多个分词器、与多个行业一一对应的多个行业专有词集合、敏感词集合、敏感词处理规则和文本组装规则的配置表,依次选择分词器进行分词、行业专有词添加、敏感词处理、拼音词添加以及进行待检索文本组装,最后将待检索文本导入分布式搜索及分析引擎Elasticsearch,得到由Elasticsearch返回的文档召回结果,并予以客户端反馈,如此可保障搜索结果准确性、数据安全性和用户搜索体验。
主权项:1.一种基于配置表的分词搜索方法,其特征在于,包括:获取预先配置有与多个文本类型一一对应的多个分词器、与多个行业一一对应的多个行业专有词集合、敏感词集合、敏感词处理规则和文本组装规则的配置表;接收由客户端发起的分词搜索请求,其中,所述分词搜索请求携带有用于分词搜索文档的原始文本;若在所述分词搜索请求中已指定所述原始文本的文本类型为在所述多个文本类型中的第一文本类型,则在所述配置表中查找到与所述第一文本类型对应的第一分词器,并应用所述第一分词器对所述原始文本进行分词处理,得到分词结果;若在所述分词搜索请求中已指定搜索目标行业领域为在所述多个行业中的某个行业,则在所述配置表中查找到与所述某个行业对应的某个行业专有词集合,并针对在所述某个行业专有词集合中的各个行业专有词,若发现对应词出现在所述原始文本中,则将对应词添加到所述分词结果中;从所述配置表中提取出所述敏感词集合,并针对在所述敏感词集合中的各个敏感词,若发现对应词出现在所述分词结果中,则从所述配置表中提取出所述敏感词处理规则来处理在所述分词结果中的对应词;针对在所述分词结果中的各个中文单词,生成对应的拼音单词,并将该拼音单词添加到所述分词结果中;从所述配置表中提取出所述文本组装规则,并应用所述文本组装规则对所述分词结果中的词进行文本组装,得到待检索文本;将所述待检索文本导入分布式搜索及分析引擎Elasticsearch,得到由所述分布式搜索及分析引擎Elasticsearch返回的文档召回结果;将所述文档召回结果反馈给所述客户端。
全文数据:
权利要求:
百度查询: 成都购商云汇信息技术股份有限公司 基于配置表的分词搜索方法、装置、设备、介质及产品
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。