杭州电子科技大学周仁杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉杭州电子科技大学申请的专利一种基于语义与句法依存信息的命名体识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114997170B 。
龙图腾网通过国家知识产权局官网在2025-06-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210645695.3,技术领域涉及:G06F40/295;该发明授权一种基于语义与句法依存信息的命名体识别方法是由周仁杰;谢忠毅;马浩男;万健;张纪林;殷昱煜;蒋从锋设计研发完成,并于2022-06-08向国家知识产权局提交的专利申请。
本一种基于语义与句法依存信息的命名体识别方法在说明书摘要公布了:本发明公开了一种基于语义与句法依存信息的命名体识别方法。本发明首先对文本进行文本分析;对词性信息和句法依存信息进行预处理,将所有词性信息和句法依存关系类型转化成one‑hot向量,并根据不同单词之间的依存关系方向构建邻接矩阵;构造命名体识别模型BiLSTM‑AELGCN‑CRF;利用训练好的命名体识别模型BiLSTM‑AELGCN‑CRF实现实体预测。本发明有效地使用了额外的句法依存信息,有效解决现有命名体识别模型存在的句法信息缺失以及其利用率不足的问题,同时能够在一定程度上避免了语义信息缺失以及错误的句法信息传播,以提升命名体识别的准确性。
本发明授权一种基于语义与句法依存信息的命名体识别方法在权利要求书中公布了:1.一种基于语义与句法依存信息的命名体识别方法,其特征在于包括以下步骤: 步骤1:对待识别实体的文本数据进行文本分析,获得词性信息和句法依存信息;所述文本分析包括词性分析与句法依存分析;其中所述句法依存信息包括句法依存关系类型、不同词之间的依存关系方向; 步骤2:对词性信息和句法依存信息进行预处理,将所有词性信息和句法依存关系类型转化成one-hot向量,并根据不同单词之间的依存关系方向构建邻接矩阵; 步骤3:构造命名体识别模型BiLSTM-AELGCN-CRF,并进行训练; 所述命名体识别模型BiLSTM-AELGCN-CRF包括输入表示层、语义提取层、句法依存提取层以及输出层; 1输入表示层: 将待识别实体的文本数据采用one-hot编码转化为文本数据one-hot向量,然后进行词嵌入处理,得到每个单词的词向量;同时对当前待识别实体的文本数据的词性信息以及句法依存关系类型的one-hot向量进行词嵌入处理,得到词性信息嵌入向量和句法依存关系类型嵌入向量; 2语义提取层,通过BiLSTM进行语义信息的提取,所述BiLSTM对每个时间步的词向量分别进行向前和后向的编码,并拼接得到上下文信息的全局特征; 3句法依存提取层,利用图卷积网络GCN根据两个存在句法依存关系的单词间的句法信息和语义信息进行加权聚合,获得具有句法与语义信息的单词嵌入向量;所述句法依存提取层包括N层串联的AELGCN,其中AELGCN包括节点联合更新模块、边更新模块,以及M层串联的AttentionGuidedGCN,具体如下: 节点联合更新模块,用于根据BiLSTM输出的上下文信息的全局特征、步骤2中的邻接矩阵信息,对邻居节点信息进行加权聚合;具体是: 将连续一段时间内语义提取层的输出,整体记作Hl-1,l表示AELGCN的当前层数,当l-1为0时表示当前的输入向量为BiLSTM的输出向量,即H0={…,ht,…},根据邻接矩阵信息更新自身节点的信息,其公式如下: 其中EANJU表示节点联合更新模块的输出,Pool表示聚合操作,A表示邻接矩阵,Wl-1表示AHl-1的权重矩阵,El-1表示句法依存关系类型嵌入向量的集合,Hl-1表示上一层的AELGCN输出向量,σ表示激活函数;为加入句法依存关系类型信息后的第i维度的节点信息,p表示句法依存关系类型嵌入向量的维度大小,其中的计算方法如下: 其中表示第i个向量维度句法依存关系类型嵌入向量的集合,i=1,…,p,W表示的权重矩阵; 边更新模块,用于将节点联合更新模块的输出Hl更新第i个单词到第j个单词的句法依存关系类型嵌入向量;具体是: 其中为步骤a中节点联合更新模块的第i个节点输出向量,Wu为权重矩阵,为矩阵的拼接操作,表示第l层AELGCN输出的第i个单词到第j个单词的句法依存关系类型所有维度的嵌入向量; 由组合得到当前层句法依存关系类型嵌入向量的集合El,然后将其输入下一层AELGCN的节点联合更新模块; AttentionGuidedGCN包括注意力引导层、密集连接层、线性组合层: 所述注意力引导层用于将邻接矩阵转换为注意力导向的邻接矩阵;具体是: 其中和表示HM的Query和Key的权重矩阵,HM-1表示第M-1层的AGGCN的输出,当M为1时HM-1为Hl,Hl表示节点联合更新模块的输出,表示第t个注意力导向的邻接矩阵,dhead表示计算后的向量维度; 所述密集连接层包含多个子层,该子层的数量等于注意力导向的邻接矩阵的数量;根据所述注意力引导层输出的注意力导向的邻接矩阵,计算出不同特征空间下的节点向量;具体是: 其中为第t个的子层第i个节点输出向量,i表示第i个单词,j表示第j个单词,表示第t个注意力导向邻接矩阵中单词i与单词j的权重向量表示,是权重矩阵,是偏差向量,σ是激活函数,t=1,…,N; 对于其计算公式如下: 其中,是通过合并N个后向量中的第j个节点的向量,表示节点联合更新模块的输出向量Hl中第j个节点的向量 所述线性组合层采用线性层的方式合并密集连接层的最终输出; 最后经过重复的N层的AELGCN,得到句法依存提取层的最终输出; 4输出层:利用条件随机场进行预测,得到最终标签序列; 步骤4:利用训练好的命名体识别模型BiLSTM-AELGCN-CRF实现实体预测。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。