买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种短文本实体相关性识别方法、系统、电子设备及存储介质,该方法包括:将包含实体上下文语义信息的词向量、包含实体位置编码信息的位置向量和包含实体预编码信息的预编码向量进行融合得到训练文本中单词的融合词向量;将每一个训练文本的单词的融合词向量输入到TD_LSTM模型中得到向前向量编码和向后向量编码,并将向前向量编码和向后向量编码拼接得到实体拼接向量,将实体拼接向量经过前馈神经网络得到每一个训练文本的分类编码向量,将分类编码向量归一化,根据归一化的分类编码向量得到损失函数,对损失函数进行迭代优化得到最优模型;将待识别短文本输入至最优模型中得到待识别文本的识别结果;实现了短文本实体相关性识别的准确性。
主权项:1.一种短文本实体相关性识别方法,其特征在于,包括:获取短文本训练集,所述短文本训练集包括多个训练文本和每一个训练文本所对应的命名实体;获取实体预编码矩阵,所述实体预编码矩阵包括所有实体对应的预编码向量,其中,实体预编码是根据实体预先编码的语境信息得到的;分别将每一个训练文本中的每一个单词转换为词向量,将每一个单词在训练文本中的位置转换为位置向量;根据每一个训练文本中的每一个单词和实体预编码矩阵得到每一个单词所对应的预编码向量,其中,每一个训练文本中命名实体所对应的单词的预编码向量为实体预编码向量,每一个训练文本中非命名实体所对应的单词的预编码向量为零向量;根据每一个训练文本中的每一个单词所对应的词向量、位置向量和预编码向量得到每一个训练文本中的每一个单词所对应的融合词向量;分别将每一个训练文本的融合词向量输入到TD_LSTM网络中得到每一个训练文本所对应的向前向量编码和向后向量编码;分别将每一个训练文本的融合词向量输入到TD_LSTM网络中每一个训练文本中实体词所对应的实体词编码向量、实体词左侧第一预设个数单词的编码向量、实体词右侧第二预设个数单词的编码向量;对实体词编码向量、实体词左侧第一预设个数单词的编码向量和实体词右侧第二预设个数单词的编码向量进行加权平均,得到实体词所对应的新的编码向量;将实体词所对应的新的编码向量与实体预编码矩阵中所述实体词所对应的预编码向量进行相似度比较,得到相似度计算值;判断相似度计算值是否大于预设相似度阈值;若相似度计算值大于预设相似度阈值,则对实体预编码矩阵不进行更新;若相似度计算值小于或者等于预设相似度阈值,则将实体词所对应的新的编码向量和实体预编码矩阵中实体词对应的预编码向量进行加权平均,得到更新后的预编码向量,并将更新后的预编码向量更新至实体预编码矩阵;分别将每一个训练文本所对应的向前向量编码和向后向量编码进行拼接,得到每一个训练文本对应的实体拼接向量;将每一个训练文本对应的实体拼接向量经过前馈神经网络,得到每一个训练文本所对应的分类编码向量;将分类编码向量进行归一化,得到归一化的分类编码向量;根据归一化的分类编码向量得到模型编码的分类向量与实际实体分类向量之间的损失函数;根据损失函数进行迭代优化训练,得到最优模型,所述最优模型用于识别短文本与短文本中实体的相关强度;获取待识别短文本;将所述待识别短文本输入至最优模型,得到待识别文本的识别结果。
全文数据:
权利要求:
百度查询: 北京智慧星光信息技术有限公司 短文本实体相关性识别方法、系统、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。