首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种分词、词性标注和命名实体识别的联合词法分析方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:昆明理工大学

摘要:本发明公开一种分词、词性标注和命名实体识别的联合词法分析方法,将分词和词性标注任务分解为候选词语检测和词性类别预测两个子任务,将实体识别任务分解为候选实体检测和实体类别预测两个子任务,并采用统一的神经网络模型对四个任务进行联合学习;同时,对不同任务之间的参数进行共享。本发明用高准确率的分词改善了词性标注任务和实体识别任务中的词边界检测问题,并且可以通过使用词性标注信息来提高分词精度。利用分词、词性标注和命名实体识别之间的高关联性进行联合学习,提高了模型性能。

主权项:1.一种分词、词性标注和命名实体识别的联合词法分析方法,其特征在于:将分词和词性标注任务分解为候选词语检测和词性类别预测两个子任务,将实体识别任务分解为候选实体检测和实体类别预测两个子任务,并采用统一的神经网络模型对四个任务进行联合学习;同时,对不同任务之间的参数进行共享;具体包括以下步骤:S1:对从PFR1998中获取的文本进行数据预处理,给每个字符片段匹配它对应的标签类别;S2:对S1预处理过的数据中依次得到每个句子信息作为输入,利用BERT预训练语言模型对输入进行特征编码,获取句子中每个字的带上下文语义向量表示,对句子中所有连续子序列进行候选词语检测和候选实体检测,再通过计算候选词语和候选实体的得分概率,进而去预测当前序列中的词序列标签、词性序列标签和实体序列标签;所述S1对数据预处理包括:针对训练集对词语构建词性标签字典和实体标签字典;结合字符在句子中的位置信息,给字符片段标注标签类别;随后,每个句子都以字符作为输入单位,通过BERT预训练语言模型的分词器对每个字符赋予固定的id编号,获得句子的切分序列[w1,w2,...,wn],其中,wi表示切分项在BERT词汇表中的编号;对预处理后的数据,获取句子中每个字的带上下文语义向量表示:将切分后的序列[w1,w2,...,wn]输入BERT预训练语言模型编码后,得到向量表示[h1,h2,...,hn],其中hi是wi对应的向量表示,向量维度d=768;对句子中所有连续子序列进行候选词语检测和候选实体检测,包括:编码后得到的向量序列[h1,h2,...,hn]通过变换qi=Wqhi+bq和ki=Wkhi+bk,其中,Wq和Wk是模型的参数;得到向量序列[q1,q2,...,qn]和[k1,k2,...,kn]是分词所用的特征向量,通过qi和kj的内积计算连续子序列x[i:j]的词语得分s1i,j; 使用贪心算法得到最优解:maxs1i,j,s1i,j+1同理,编码后得到的向量序列[h1,h2,...,hn]通过变换ri=Wrhi+br和ui=Wuhi+bu,其中,Wr和Wu是模型的参数;得到向量序列[r1,r2,...,rn]和[u1,u2,...,un]是判断是否为实体所用的特征向量,通过ri和uj的内积计算连续子序列x[i:j]的词语得分s2i,j, 对句子中所有连续子序列进行候选词语检测和候选实体检测后,进行词性类别预测和实体类别预测:将编码后得到的向量序列[h1,h2,...,hn]通过预测依存标签label, 其中,U1是维度为Rm×d×d的高阶张量m是标签个数,d是Biaffine输入维度,是同时已知作为i作为dep、j作为head情况下的后验概率,是已知i或j是依存关系arc两端的后验概率。

全文数据:

权利要求:

百度查询: 昆明理工大学 一种分词、词性标注和命名实体识别的联合词法分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。