恭喜衡阳市山伊科技有限公司李建强获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜衡阳市山伊科技有限公司申请的专利一种基于句法依存关系的命名实体识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN111783461B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202010556881.0,技术领域涉及:G06F40/295;该发明授权一种基于句法依存关系的命名实体识别方法是由李建强;刘雅琦;白骏设计研发完成,并于2020-06-16向国家知识产权局提交的专利申请。
本一种基于句法依存关系的命名实体识别方法在说明书摘要公布了:本发明涉及一种基于句法依存关系的命名实体识别方法。在命名实体识别中,只有当模型所识别到的实体边界和类型都与标注实体的边界和类型相匹配,才算是真阳例TP。在大多数测试样本中,假阳例FP和假阴例FN往往都是由于实体的边界判断不正确造成的,也就是说边界识别比类型识别困难得多。本发明提出使用自注意力机制来削弱实体与实体以外单词的联系,并加强实体内部单词之间的关系。具体的是在双向长短期记忆网络Bi‑LSTM网络之后,添加自注意力机制,把句法依存树中单词之间的依存关系编码进上下文信息,最后根据Bi‑LSTM网络提供的全局特征以及句法依存树提供的局部特征,共同来判断实体边界。本发明提高了命名实体识别的准确率。
本发明授权一种基于句法依存关系的命名实体识别方法在权利要求书中公布了:1.一种基于句法依存关系的命名实体识别方法,其特征在于,包括如下步骤:步骤S1,在模型训练阶段,首先用预训练过的Word2vec把one-hot单词向量映射到定义好的低维空间,得到每个单词的词向量;步骤S2,使用双向长短期记忆网络对句子中每个时间步的词向量分别进行前向和后向的编码,并拼接得到拥有上下文信息的全局特征;步骤S3,用句法分析技术得到每个句子的句法依存树,计算树上两两单词之间的最短依赖路径;步骤S4,根据最短依赖路径得到每个单词的自顶向下以及自底向上的特征序列并输入LSTM网络,计算得到单词局部特征;步骤S5,通过局部特征点积来计算两两单词之间的关系权重并进行归一化;步骤S6,使用自注意力机制以归一化的关系权重将单词之间的局部关系特征融入全局特征中,得到融合特征;步骤S6中使用自注意力机制以归一化的关系权重将单词之间的局部关系特征融入全局特征中,得到融合特征包括:首先对Bi-LSTM1输出的全局特征做一个线性变换,并左乘归一化自注意力权重矩阵Q得到实体边界信息增强的单词特征S=QH1WvS∈RT×s,其中s为融合特征的长度,为线性变换参数矩阵;步骤S7,根据融合特征初步预测序列标签,使用CRF对预测序列进行精修,得到最终标签序列;步骤S8,在模型测试阶段,使用上述步骤训练好的网络来进行命名实体识别;所述步骤S2中使用双向长短期记忆网络对句子中每个时间步的词向量分别进行前向和后向的编码,并拼接得到拥有上下文信息的全局特征包括:使用隐藏单元的个数为h1的双向长短期记忆网络Bi-LSTM1对给定时间步t的输入xt进行前向和后向的编码,并将该时间步正向隐藏状态记为反向隐藏状态记为然后,连结两个方向的隐藏状态和来得到隐藏状态便是拥有给定时间步t上下文信息的全局特征,对于输入序列{x1,x2,…xT},记Bi-LSTM1的输出特征为所述步骤S3中用句法分析技术得到每个句子的句法依存树,计算树上两两单词之间的最短依赖路径包括:对于输入样本序列{w1,w2,…wT},使用依存语法分析技术对其进行句法分析,得到样本序列的依存句法树;对于输入序列中任意两个单词a与b,他们之间的最短依存路径SDP为{a,a1,...,am,c,bn,...,b1,b},其中c表示它们在依存句法树中的最低共同祖先,a1,...,am表示SDP上a和c之间的单词,b1,...,bn表示b和c之间的单词;若a与b表示同一个单词,则SDP记为{a,b};所述步骤S4中根据最短依赖路径得到每个单词的自顶向下以及自底向上的特征序列并输入LSTM网络,计算得到单词局部特征包括:对于输入文本序列{w1,w2,...wT}中任意两个单词a与b,他们之间的最短依存路径SDP分为两部分:自底向上的序列{a,a1,...,am,c}和{b,b1,...,bn,c};自顶向下序列{c,am,...,a1,a}和{c,bn,...,b1,b};若a与b表示同一个单词,则SDP分为:{a};{b}两部分;使用隐藏单元的个数为h2的双向长短期记忆网络Bi-LSTM2从这两种序列中提取单词之间的局部关系特征;每个LSTM2单元的输入是两个部分的串联,由 表示,其中是单词wt在Bi-LSTM1的输出,embdt表示单词wt及其依存句法树上的支配词之间的依存关系类型dt的分布式表达;前向LSTM2根据自底向上的序列{a,a1,...,am,c}和{b,b1,...,bn,c}计算得到前向隐藏状态和后向LSTM2根据自顶向下序列{c,am,...,a1,a}和{c,bn,...,b1,b}计算得到后向隐藏状态和连结两个方向的隐藏状态↑ht和↓ht来得到单词wt的局部特征所述步骤S5中通过局部特征点积来计算两两单词之间的关系权重并进行归一化包括:对局部特征与局部特征做点积,得到单词wi与单词wj的关系紧密系数 按照相同的方法计算得到文本序列中两两单词之间的关系紧密系数,将所有关系紧密系数整理为一个矩阵R∈RT×T,其中矩阵的第i行代表单词wi与{w1,w2,...wT}中每一个单词的关系紧密系数,然后按行对R进行归一化得到自注意力权重矩阵Q=SoftmaxR。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人衡阳市山伊科技有限公司,其通讯地址为:421000 湖南省衡阳市高新区长丰大道电商产业园众创空间0786号办公室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。