买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:武汉理工大学
摘要:本发明提供了一种基于预训练模型的核电站维修经验文本匹配方法,包括:1、获取用户查询的维修主题,并对核电站维修文档非结构化数据进行清洗,组成原始数据集;2、对数据进行增强,得到包含第一文本、第二文本数据对的最终的数据集,3、构建多任务的训练集、验证集和测试集,并进一步分词处理;4、通过预训练文本匹配模型对第一文本、第二文本数据对进行语义特征提取,生成匹配权重矩阵;5、将用户查询的维修主题输入到文本匹配模型中,对维修经验主题进行语义分析,进而给出相匹配关联的维修经验文档。相比于其他方法,本发明能够从解决多种长度文本匹配使用一个模型进行训练匹配的准确度、核电站领域没有维修文本数据集及匹配系统的问题。
主权项:1.一种基于预训练模型的核电站维修经验文本匹配方法,其特征在于,包括:S1:获取用户查询的维修主题,对核电站维修文档非结构化数据进行清洗,得到标准维修主题和标准维修目的,组成原始数据集;S2:在原始数据集的基础上,对数据进行增强,得到最终数据集,最终数据集中包含由第一文本和第二文本构成的数据对;S3:在最终数据集上构建多任务的训练集、验证集和测试集,并对构建的数据集进行分词处理,多任务包括短短匹配、短长匹配、长长匹配三大类的语义匹配任务;S4:通过预训练文本匹配模型对最终数据集中由第一文本和第二文本组成的数据对进行语义特征提取,生成文本数据对间的匹配权重矩阵,匹配权重矩阵包含多层次交互信息,预训练文本匹配模型为基于Roformer的预训练模型;S5:将用户查询的维修主题输入到预训练文本匹配模型中,获得待查询维修主题文本向量,根据待查询维修主题文本向量与步骤S4生成的文本数据对间的匹配权重矩阵之间的相似度,获取相似度高于相似度阈值的维修主题,并将相似度高于相似度阈值的维修主题对应的维修文档返回给用户;其中,基于Roformer的预训练模型包括嵌入层、位置编码层、多头注意力层、前馈神经网络层、交互注意力层和预测层,其中,嵌入层用于对第一文本和第二文本进行文本向量化表示,位置编码层用于对嵌入层得到文本向量化表示进行相对位置编码,多头注意力层用于根据相对位置编码的结果进行注意力计算,前馈神经网络层用于对多头注意力层的结果进行线性变换,交互注意力层用于对文本数据进行多层次的信息交互,预测层用于根据交互注意力层的结果得到匹配结果;嵌入层采用BERT模型,预测层包括最大池化、全连接层和softmax层,步骤S4包括:S401:采用BERT模型分别对第一文本和第二文本进行文本向量化表示,得到嵌入矩阵A和嵌入矩阵B;S402:通过位置编码层将嵌入矩阵A和嵌入矩阵B进行相对位置编码,得到第一向量和第二向量;S403:对编码后获得的数值化第一向量和第二向量,通过Roformer模型的多头注意力层进行注意力计算、前馈神经网络层进行线性变换;S404:通过Roformer的交互注意力层,对第一向量和第二向量之间进行信息交互,获得丰富的上下文信息和交互信息,得到包含两个文本多层次交互信息的第一交互矩阵和第二交互矩阵;S405:对第一交互矩阵和第二交互矩阵分别进行最大池化操作,得到降维压缩后的第一预测向量和第二预测向量并计算第一预测向量和第一预测向量之间的匹配结果其中,v1和v2分别为第一预测向量和第一预测向量,对应第一文本和第二文本,表示v1和v2对应元素逐个相乘,强调两个文本之间相同之处,|v1-v2|表示v1和v2对应元素逐个相减,强调两个文本之间不同之处,F表示将获取的四个向量拼接,再输入到全连接层,最终通过分类器softmax输出匹配权重矩阵。
全文数据:
权利要求:
百度查询: 武汉理工大学 一种基于预训练模型的核电站维修经验文本匹配方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。