买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:国网信通亿力科技有限责任公司
摘要:本发明涉及一种基于文本向量化的电力系统向量知识库构建方法,包括以下步骤:步骤S1:获取电力系统向量知识库构建相关的数据原始文本和元数据,并预处理;步骤S2:通过稀疏向量和稠密向量组合的方法,进行文本向量化;步骤S3:将原始文本和元数据存储在关系数据库中,向量数据存储在NoSQL向量数据库中,并构建关联关系;步骤S4:用户输入查询时,对查询向量进行优化处理,改进查询算法和优化查询流程,引入多阶段筛选机制,获取初步检索结果;步骤S5:基于增强召回的策略,使用领域特定的信息和规则对初步检索结果进行重新排序,得到最终的检索结果。本发明能够有效提高电力系统知识库的构建效率和使用效果。
主权项:1.一种基于文本向量化的电力系统向量知识库构建方法,其特征在于,包括以下步骤:步骤S1:获取电力系统向量知识库构建相关的数据原始文本和元数据,并预处理;步骤S2:通过稀疏向量和稠密向量组合的方法,进行文本向量化;步骤S3:将原始文本和元数据存储在关系数据库中,向量数据存储在NoSQL向量数据库中,并构建关联关系;步骤S4:用户输入查询时,对查询向量进行优化处理,改进查询算法和优化查询流程,引入多阶段筛选机制,获取初步检索结果;所述引入多阶段筛选机制,具体如下:首先使用近似最近邻算法,进行快速筛选;对于给定的查询向量q,定义一组哈希函数: ;其中,ai是一个随机向量,bi是随机偏移量,w是桶宽度;组合成一个包含个哈希函数的哈希表: ;将查询向量映射到哈希表中得到哈希桶ID,然后从该哈希桶中提取候选向量集合;从粗筛阶段得到的候选向量集合中使用精确最近邻算法进行精细化筛选,使用基于索引结构的数据结构,包括KD树、球树,或者直接计算欧氏距离;给定查询向量q和候选向量集合{v1,v2,…,vm},计算欧氏距离: ;其中,qj是查询向量q在第j个维度上的元素;vij是候选向量vi在第j个维度上的元素;d为查询向量的维数;m为候选向量数量;选择距离最小的前K个候选向量作为最终结果: ;所述对查询向量进行优化处理,具体如下:首先,进行查询预处理,包括清洗、分词和去停用词,然后生成查询向量,最后计算查询的TF-IDF向量和BERT向量,并组合查询向量;步骤S5:基于增强召回的策略,使用领域特定的信息和规则对初步检索结果进行重新排序,得到最终的检索结果。
全文数据:
权利要求:
百度查询: 国网信通亿力科技有限责任公司 基于文本向量化的电力系统向量知识库构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。