买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:普天信息技术有限公司
摘要:本发明的实施例公开了一种语句中命名实体的识别方法及装置,在获取到目标语句的字符向量和词向量后,将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由识别模型输出每一单词对应的表示单词属性的标签,在根据每一单词对应的标签输出目标语句中的属于命名实体的单词。识别模型通过注意力函数字向量和词向量进行加权结合,各单词相对于整个语句其它单词为命名实体的权重,提取出对命名实体识别的有用信息,弱化语句中不属于命名实体的单词对模型训练过程的影响,不仅提高了训练的识别模型识别命名实体的准确率,也加快了模型训练过程的收敛速度,缩短了训练时间。
主权项:1.一种语句中命名实体的识别方法,其特征在于,包括:对欲进行命名实体识别的目标语句,获取根据所述目标语句得到的每一字符对应的字符向量和从所述目标语句中划分的每一单词对应的词向量;将每一字符对应的字符向量和每一单词对应的词向量输入到预先训练的识别模型中,由所述识别模型输出每一单词对应的表示单词属性的标签;根据每一单词对应的标签输出所述目标语句中的属于命名实体的单词;其中,所述识别模型根据输入的所述目标语句的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签;单词属性包括人名词、地名词和机构名词;对所述识别模型的训练包括:获取若干样本语句,对每一样本语句,预先划分出所述样本语句中的单词,获取所述样本语句中每一字符对应的字符向量和每一单词对应的词向量,并对划分出的每一单词添加表示单词属性的标签,将所述样本语句中每一字符对应的字符向量和每一单词对应的词向量作为循环神经网络的输入参数,将所述样本语句的每一单词对应的标签作为期望输出,对所述循环神经网络进行训练,得到所述识别模型;其中,在对所述循环神经网络进行训练的过程中,所述循环神经网络根据输入的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签;所述在对所述循环神经网络进行训练的过程中,所述循环神经网络根据输入的字符向量和词向量,通过注意力函数生成每一单词对应的语句特征向量,由每一单词对应的语句特征向量确定每一单词对应的标签,包括:在对所述循环神经网络进行训练的过程中,所述循环神经网络通过公式Zt=σ[w3*tanhw1*Xt+w2*mt]和Xt'=Zt*Xt+1-Zt*mt计算每一单词对应的语句特征向量;由每一单词对应的语句特征向量,通过条件随机场确定所述单词的单词属性为每一预设标签的概率,将所述单词的单词属性为每一预设标签的概率作为所述识别模型的输出;其中,所述循环神经网络为双向长短时记忆网络,w1、w2和w3为所述注意力函数的参数值,y=σx为sigmoid函数,对于任一单词,Xt为t时刻输入到所述循环神经网络的所述单词的词向量,mt为t时刻输入到所述循环神经网络的所述单词的字符向量,Zt为所述单词对应的权重,X’t为所述单词对应的语句特征向量;所述对每一样本语句,预先划分出所述样本语句中的单词,获取所述样本语句中每一字符对应的字符向量和每一单词对应的词向量,并对划分出的每一单词添加表示单词属性的标签,将所述样本语句中每一字符对应的字符向量和每一单词对应的词向量作为循环神经网络的输入参数,将所述样本语句的每一单词对应的标签作为期望输出,对所述循环神经网络进行训练,包括:对每一样本语句,将所述样本语句输入到预先训练的分字模型中,得到所述样本语句中每一字符对应字符向量,将所述样本语句输入到预先训练的分词模型中,得到所述样本语句中每一单词对应的词向量,将由所述分字模型得到的字符向量和由所述分词模型得到的词向量作为循环神经网络的输入参数;所述分字模型为对卷积神经网络CNN进行训练得到的模型;所述分词模型为对word2vec进行训练得到的模型;预先依照设定分词标准划分出所述样本语句中的单词,对依照所述设定分词标准划分的每一单词添加表示单词属性的标签,将依照所述设定分词标准划分的每一单词和每一单词对应的标签作为期望输出,对所述循环神经网络进行训练。
全文数据:
权利要求:
百度查询: 普天信息技术有限公司 一种语句中命名实体的识别方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。