恭喜东南大学黄婉华获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜东南大学申请的专利一种基于主题特征和隐式句子结构的事件抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113901813B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111178364.5,技术领域涉及:G06F40/289;该发明授权一种基于主题特征和隐式句子结构的事件抽取方法是由黄婉华;漆桂林;高桓设计研发完成,并于2021-10-09向国家知识产权局提交的专利申请。
本一种基于主题特征和隐式句子结构的事件抽取方法在说明书摘要公布了:本发明公开了一种基于主题特征和隐式句子结构的事件抽取方法,主要用于把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘、自动问答、信息检索等领域有着广泛的应用。本发明首先通过结合BERT和LDA获得文档的主题特征为句子级的事件抽取模型引入文档级的主题信息;其次抽取出BERT词嵌入表示中隐含的句法信息,并将该抽取过程与事件抽取进行联合建模,在避免了错误累积问题的同时为事件抽取引入重要的句法信息;最后模型使用基于Bi‑LSTM和级联式CRF的序列标注方法抽取单句中的多个触发词以及抽取实体在多个事件中的元素角色。
本发明授权一种基于主题特征和隐式句子结构的事件抽取方法在权利要求书中公布了:1.一种基于主题特征和隐式句子结构的事件抽取方法,其特征在于,该方法包括以下步骤:1数据处理及主题特征抽取:将原始数据集重构成JSON格式,对于读取的数据集中的每个样本发明档,进行主题特征抽取,然后利用NLTK包中的分句工具对样本发明档进行分句得到样本句子;2隐式句子结构抽取:对于每个样本句子,首先利用语言模型Bert获得句子中的词嵌入作为句子上下文特征,然后对于这个词嵌入,利用一种屏蔽机制对句子中各成分之间的相互影响程度进行计算,作为隐式句子结构特征,用于后续的事件抽取联合方法;3基于级联式CRF的事件触发词抽取模块,采用一种级联的序列标注方法将抽取任务分解成边界标注和类型判别两个任务,先标记事件触发词的边界,然后判断其对应的事件类型;4利用Bi-LSTM融入句法信息的事件元素抽取模块,在正向和反向的递归过程中引入影响矩阵中的数据,在当前词节点及其强相关的词节点之间建立对应的联系,使得句法信息能够在LSTM节点之间传播,最终使句法信息融入单词的向量表示中;5联合训练,以交叉熵损失函数来分别计算事件触发词抽取模块和事件元素抽取模块的损失,并且对事件触发词和事件元素抽取进行联合训练以避免错误累积问题,为了两个子任务的损失项在同一时刻收敛,最终的损失由两个子任务的损失之和表示;所述步骤1中,按照如下方式抽取出主题特征:1-1利用面向长句编码的Sentence-Transformer得到每个文档具有上下文语义信息的上下文表示,S=[s1,s2,…,sn],上下文特征向量si的维度为768维,1-2然后利用主题模型LDA得到每个文档的主题分布信息L=[l1,l2,…,ln];主题分布向量li的维度为预设的主题个数,1-3利用上述两个向量训练一个自编码器用于将这两个向量进行融合,以自编码器的结果作为每个文档的主题特征;所述步骤2中根据以下特征构建训练数据集:2-1将输入序列中的任意一个单词xi替换成屏蔽字符[MASK]得到新的输入序列,将该序列输入到BERT中得到的结果hi,将hi作为xi的表示;2-2更为了得到句子中其他成分xj对xi的影响,进而将输入序列中的xj也特换成屏蔽字符[MASK],再输入BERT中得到xi的新表示Hij;2-3利用欧式距离来计算Hij和hi在语义空间中的距离fxi,xj,最终得到句子中两两成分之间的影响程度矩阵该矩阵即为隐式句子结构信息,可以表征任意两个句子成分之间的相互影响程度;所述步骤3中按照如下具体步骤进行触发词抽取:3-1对于输入序列利用BERT模型分词并向量化,并将其与原标签序列对齐,包括去除“[CLS]”、“[SEP]”一类BERT的特殊表示,将对齐后的序列作为CRF的输入;3-2对于利用BERT得到的词嵌入序列进行序列标注,在将BIO标注法引入任务时,仅使用CRF对输入序列中的词语标注是否为触发词的开始“B”或者内部部分“I”或者与触发词无关“O”,于是输入序列在经过CRF模型标注后得到标注序列Ci=[c1,...,ci,…,cn],其中ci∈{B,I,O};3-3得到CRF的标注序列Ci=[c1,...,ci,…,cn]后,对于其中ci∈{B,I}的单词wi或词组gi=[wp,...,wq],从BERT的结果中找到该单词wi或词组gi的向量表示,其中词组gi=[wp,...,wq]以词组中每一个词语的词嵌入的平均值作为词组的向量表示,然后将得到的向量馈送至一个全连接神经网络对该词或词组进行具体事件类型的判定;所述步骤4中按照如下具体步骤进行事件元素抽取:4-1对于输入序列利用BERT模型分词并向量化后,将此序列与原标签序列对齐,包括去除“[CLS]”、“[SEP]”一类BERT的特殊表示;4-2对于当前时刻的输入,查看句法影响矩阵中与对应句子中其他成分对当前时刻输入的影响程度,加入节点的计算过程,在反向LSTM计算过程中应用同样的计算方式,将上下文的句法影响信息融入到整个句子的向量表示中;4-3经过正向和反向的计算,能够得到一个新的向量表示序列以及整个句子的表示,对于任意候选事件触发词和任意候选事件元素实体对,从新的向量表示序列中找到对应的词向量,将两者和事件类型拼接后输入到一个全连接分类器中进行元素角色的分类。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学,其通讯地址为:210096 江苏省南京市玄武区四牌楼2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。