西北工业大学番译获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西北工业大学申请的专利一种融合多源知识的航空装备型号命名实体识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115688785B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211362371.5,技术领域涉及:G06F40/295;该发明授权一种融合多源知识的航空装备型号命名实体识别方法是由番译;米百刚;詹浩设计研发完成,并于2022-11-02向国家知识产权局提交的专利申请。
本一种融合多源知识的航空装备型号命名实体识别方法在说明书摘要公布了:本发明公开了一种融合多源知识的航空装备型号命名实体识别方法,包括以下步骤,S1:构建面向航空装备型号扁平和嵌套实体识别语料库;S2:基于步骤S1中构建的语料库,建立融合多源知识的命名实体识别模型;S3:利用步骤S2中建立的命名实体识别模型对航空装备型号的命名实体进行识别。所述融合多源知识的命名实体识别模型总体上采用MRC模型,输入文本中将命名规则信息融入Query信息中,文本编码时将RoBERTa和领域字典增强方法结合提取文本语义信息。本发明中的识别方法对扁平实体和嵌套实体识别结果F1值分别达到89.26%和85.53%,实现了航空装备型号命名实体智能化识别。
本发明授权一种融合多源知识的航空装备型号命名实体识别方法在权利要求书中公布了:1.一种融合多源知识的航空装备型号命名实体识别方法,其特征在于,包括以下步骤, S1:构建面向航空装备型号扁平和嵌套实体识别语料库; S2:基于步骤S1中构建的语料库,建立融合多源知识的命名实体识别模型; S3:利用步骤S2中建立的命名实体识别模型对航空装备型号的命名实体进行识别; 其中,步骤S2的具体操作包括以下步骤, S201:以步骤S1构建的语料库为数据集,搭建融合航空装备型号知识命名实体识别框架,进行语料输入; S202:采用RoBERTa和wwm结合的预训练模型提取权重,对航空装备型号命名实体识别任务中待识别句子进行字符级编码; S203:将步骤S1中提取的航空字典加入词表中进行词汇级编码,并将步骤S202中字符级编码结果与词汇级编码的结果进行拼接; S204:对航空装备型号命名实体识别任务中待识别句子进行序列匹配,求解开始结束索引,得到融合多源知识的命名实体识别模型; S205:对步骤S204建立的融合多源知识的命名实体识别模型进行训练和测试; 步骤S201的具体操作包括以下步骤, S2011:将航空装备型号命名实体识别任务中待识别句子定义为,其中,表示句子中第i个字符,i=1,2,…,N;N表示待识别句子的最大长度; S2012:将航空装备型号命名实体识别任务的最终目标定义为将每一个字符对应到具体的类别y中,,Y表示实体类别,包括航空器、设计制造商、相关地点国家和地区、航空发动机和航空相关事件; S2013:将机器阅读理解任务转化成Context,Query,Answer三元组数据集,其中,Context为待识别句子,Query为具体类别y下的问题,其中,qj表示Query中第j个字符,j=1,2,…,M;M为Query句子的最大长度,Answer为标注类别Y条件下的实体序列,表示为实体的开始和结束位置,;最终形成的三元组与Context,Query,Answer对应; 步骤S202的具体操作包括以下步骤, S2021:将Query对应的与Context对应的X拼接形成序列 ,其中,和表示联合序列的开始和句子分割符号; S2022:将拼接后的序列I输入到语言预训练模型RoBERTa中, ; ; 其中,表示初始RoBERTa输出权重向量,表示第i个编码嵌入的字符,和表示学习的参数,,L表示RoBERTa总的层数,l表示具体的每一层;表示Transformer块中包含了多头注意力层,全连接层和归一化层;表示第层RoBERTa输出权重向量;表示最终经过RoBERTa-wwm得到的权重向量;表示第L层RoBERTa输出权重向量; 步骤S203的具体操作包括以下步骤, S2031:将步骤S1中提取的航空字典加入词表中进行词汇级编码,对于每一个给定的字符和词表,对表示实体信息的开始、中间、结束和单字实体分别构建集合 ; ; ; ; 其中,表示输入文本信息I中的子序列;表示子序列;表示子序列,表示词汇对应的不同位置,表示词的开始位置,表示词的结束位置;表示对应到词表处于开始位置词的集合,表示对应到词表处于中间位置词的集合,表示对应到词表处于结束位置词的集合,表示单词实体集合; S2032:采用计算词频的方式形成稳定的权重,其中,B集合开始字符的向量权重的计算方法为 ; 其中,表示开始字符的向量权重;表示词语w在词表中出现的次数,表示词嵌入方式得到的权重向量,; S2033:重复步骤S2032,分别计算、和; S2034:将四个词表集合的表示融合成一条固定维度的特征,得到词汇级编码结果,表示为 ; S2035:将步骤S202中得到的字符级编码结果与步骤S2034中得到的词汇级编码结果进行拼接,得到模型的输出 ; ; 其中,为第i个字符的输出,E为所有字符的输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北工业大学,其通讯地址为:710072 陕西省西安市碑林区友谊西路127号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励