买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:电科云(北京)科技有限公司
摘要:本发明提供一种军事数据词义消歧模型训练方法、消歧方法及装置,包括:获取训练样本集,训练样本集中每个样本包括军事数据相关的文本和候选实体集,在文本中标识出待消歧词语,在候选实体集中标记标签;获取初始模型,该初始模型包括依次连接的预训练语言模型、双向长短期记忆网络和指针网络;将每个样本的文本和候选实体集输入预训练语言模型进行编码得到编码序列;将编码序列输入双向长短期记忆网络,得到前向编码向量和后向编码向量拼接后的整体编码向量,并输入指针网络,利用Sigmoid函数进行解码,最终得到正确实体;采用训练样本集对初始模型进行训练,得到最终的军事数据词义消歧模型。本发明能够全面提取消歧特征,实现军事数据词义的消歧。
主权项:1.一种军事数据词义消歧模型的训练方法,其特征在于,该方法包括以下步骤:获取训练样本集,所述训练样本集包含多个样本,每个样本包括军事数据相关的文本和候选实体集,在所述文本中采用预设方法标识出待消歧词语;所述候选实体集由所述待消歧词语对应的多个候选实体拼接而成,在所述候选实体集中标记所述待消歧词语对应的正确实体作为标签;获取初始模型,所述初始模型包括依次连接的预训练语言模型、双向长短期记忆网络和指针网络;将每个样本的文本和候选实体集按照预设格式输入所述预训练语言模型,对所述文本和所述候选实体集进行编码得到编码序列;将所述编码序列输入所述双向长短期记忆网络,前向长短期记忆网络从左向右读取所述编码序列得到前向编码向量,后向长短期记忆网络从右向左读取所述编码序列得到后向编码向量,将所述前向编码向量和所述后向编码向量拼接得到整体编码向量;将所述整体编码向量输入所述指针网络,在所述指针网络的抽取层中,利用Sigmoid函数对所述整体编码向量进行解码,计算所述候选实体集中每个字属于所述待消歧词语对应正确实体的开始位置或结束位置的概率,并根据概率筛选标记出所述正确实体在所述候选实体中的开始位置和结束位置,以得到所述正确实体;采用所述训练样本集对所述初始模型进行训练,得到最终的军事数据词义消歧模型。
全文数据:
权利要求:
百度查询: 电科云(北京)科技有限公司 军事数据词义消歧模型训练方法、消歧方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。