中国教育图书进出口有限公司黄祥芸获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国教育图书进出口有限公司申请的专利一种基于弹性搜索的文献语义搜索方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120429311B 。
龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510946180.0,技术领域涉及:G06F16/242;该发明授权一种基于弹性搜索的文献语义搜索方法及系统是由黄祥芸;郑剑锋设计研发完成,并于2025-07-09向国家知识产权局提交的专利申请。
本一种基于弹性搜索的文献语义搜索方法及系统在说明书摘要公布了:本申请公开了一种基于弹性搜索的文献语义搜索方法及系统,涉及数据检索:利用基于CoSENT方法训练的text2vec‑base‑multilingual模型对名词短语列表进行向量化处理;根据语义向量,在第二检索模块中进行近似最近邻搜索,得到第一候选数据;将查询文本数据输入第一检索模块,通过BM25算法进行关键词匹配,得到第二候选数据;将第一候选数据和第二候选数据进行融合,得到第三候选数据;采用SequenceMatcher算法计算第三候选数据中扩展词之间的字符串相似度,基于最长公共子序列长度设定相似度阈值并进行去重,得到第四候选数据;对第四候选数据进行基于位置和相似度得分的权重分配,通过扩大得分区间增强扩展词区分度,得到扩展词推荐列表数据。本申请显著提高文献检索的准确性。
本发明授权一种基于弹性搜索的文献语义搜索方法及系统在权利要求书中公布了:1.一种基于弹性搜索的文献语义搜索方法,其特征在于,包括: 构建包含第一检索模块和第二检索模块的混合检索架构,第一检索模块采用基于ApacheLucene的Elasticsearch,通过倒排索引和BM25算法处理结构化文本数据,第二检索模块采用Milvus向量数据库,利用向量索引结构处理向量数据; 对输入的查询文本数据进行预处理,生成名词短语列表; 利用基于CoSENT方法训练的text2vec-base-multilingual模型对名词短语列表进行向量化处理,得到语义向量; 将语义向量作为查询向量,在第二检索模块中进行近似最近邻搜索,获取扩展词数据、相似度得分以及检索排序位置,作为第一候选数据; 将查询文本数据输入第一检索模块,通过BM25算法进行关键词匹配检索,计算基于词频和逆文档频率的统计得分,以及检索排序位置,作为第二候选数据; 将第一候选数据和第二候选数据进行融合,并根据查询文本数据中的逻辑运算符对融合后的候选数据进行聚合处理,得到第三候选数据; 采用SequenceMatcher算法计算第三候选数据中扩展词之间的字符串相似度,基于最长公共子序列长度设定相似度阈值并进行去重处理,得到第四候选数据; 对第四候选数据进行基于位置和相似度得分的权重分配,通过扩大得分区间增强扩展词区分度,得到最终的扩展词推荐列表数据; 得到第三候选数据,包括: 获取查询文本数据中的逻辑运算符,逻辑运算符包括第一运算符表示and,第二运算符表示or,第三运算符表示not; 将第一候选数据和第二候选数据中的匹配结果进行融合,提取其中的扩展词,形成候选词汇集合; 识别候选词汇集合中的重复扩展词,根据逻辑运算符对重复扩展词进行聚合处理: 当逻辑运算符为第一运算符and时,对重复扩展词的相似度得分进行累加操作,以强化交集结果; 当逻辑运算符为第二运算符or时,对重复扩展词的相似度得分进行平均计算,以平衡并集结果; 当逻辑运算符为第三运算符not时,从候选词汇集合中删除对应的扩展词; 将第一候选数据和第二候选数据中的非重复扩展词保留原始相似度得分,与聚合处理后的重复扩展词进行合并; 计算合并后候选数据的排序位置索引,生成包含扩展词、相似度得分和排序位置索引的数据集合,作为第三候选数据。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国教育图书进出口有限公司,其通讯地址为:100071 北京市丰台区西营街1号院1区1号楼、1区2号楼、1区3号楼8、9、10层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励