首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多粒度实体异构图的篇章级事件抽取方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山西大学

摘要:本发明涉及深度学习、自然语言处理等领域,针对目前实体抽取存在的问题,公开了一种基于多粒度实体异构图的篇章级事件抽取方法及装置。本发明方法使用基于句子和段落的上下文信息分别进行实体抽取,并基于一种多粒度实体选择策略融合两种粒度的实体集,提高了实体提取的精度。随后,结合句子与筛选出的候选实体,构造融入多粒度实体的异构图,并利用图卷积网络获得具有篇章级上下文感知的实体和句子的向量化表示,提高了句子和实体对于事件的感知能力。最后,进行事件类型和事件论元的多标签分类,实现事件检测和论元识别。

主权项:1.一种基于多粒度实体异构图的篇章级事件抽取装置,其特征在于:包括编码器模块、句子级实体抽取模块、段落级实体抽取模块、多粒度融合模块、异构图构建模块、事件检测模块和论元识别模块;所述编码器模块包括句子级编码器和段落级编码器,分别用于对篇章中的句子粒度和段落粒度的文本进行编码,得到句子和段落中每个字或词的语义化向量化表示;所述句子级实体抽取模块是从句子粒度的文本中提取实体;所述段落级实体抽取模块是从段落粒度的文本中提取实体;所述多粒度融合模块是对来自句子和段落粒度的实体按照规则进行融合;对来自句子和段落两种粒度的实体进行融合的规则为:①选择两种粒度的实体集中共同存在的实体;②选择仅在段落级实体集中存在的实体;③选择仅在句子级中的某一句存在,且该句所在的段落中的其他句子中也存在的实体;所述异构图构建模块是通过定义的规则,将句子与实体之间进行连接,并基于图卷积网络产生跨句之间的信息交互,获得具有全文感知的句子和实体的向量化表示;基于定义的规则,建立句子与实体之间的连接,并基于图卷积网络建立跨句的信息交互,获得具有篇章级上下文感知的句子和实体的向量化表示的具体操作为:异构图是由实体节点和句子节点构成;对于实体节点,由于一个实体节点e可能包含多个token,因此使用平均池化策略来获得该实体节点的初始化表示;同样地,对于一个句子节点,对该句中的token使用最大池化策略并加上该句的位置编码得到该句子节点初始化表示;具体公式如下所示:he=MeanPooling{ti}i∈e 其中,he为实体节点e的初始化表示,为句子节点si的初始化表示;在构建边时,采用如下的规则构成四种类型的边:①所有句子节点进行连边;②句子节点与该句内的实体节点之间进行连边;③同一句子中的所有实体节点连边;④不同句子中的同一个实体提及连边;在构建异构图后,通过L层的GCN进行信息的传递,对于一个第l层的节点u,通过如下公式更新其表示: 其中,Wl是可学习到的参数,σ为激活函数,表示节点u的邻居节点,cu,v为归一化常数,为l层中节点u的向量表示,为l+1层中节点u的向量表示,v表示集合中的一个节点;随后通过将每层的节点u表示拼接起来,通过可学习到的参数Wa进行线性变换获得节点u的最终表示: 最后,再次使用最大池化策略将相同的实体提及嵌入合并到单个嵌入中:ei=MeanPooling{hj}j∈Mentioni,其中Mentioni表示第i个实体提及的集合,hj表示集合中第j个实体的提及的向量表示,ei表是第i个实体最终向量表示;在这个阶段后,获得了具有篇章级上下文感知的实体的向量化表示和句子的向量化表示其中Ns为句子的个数,Ne为不同实体提及的个数,dm表示隐藏层的维度;所述事件检测模块是基于具有全文感知的句子的向量化表示进行多个二分类,以判断某一事件是否被触发;所述论元识别模块是以路径扩展的方式在候选实体集中识别论元;以路径扩展的方式在候选实体集中识别论元的具体操作为:对于每种事件类型,预先定义事件角色的顺序;然后,从第一个角色开始逐步进行扩展,其中每个扩展的节点要么是实体,要么是空节点;在扩展的每一步,将其形式化为二分类的问题,即判断每个实体是否要进行扩展;由于事件角色可能存在多个符合条件的实体,在节点拓展时或许会产生多个分支;这样,每个路径都可以看作一个事件的论元集;对于一条由实体序列组成的事件论元路径,将路径中的实体拼接得到该路径的表示其中Ei1和均表示路径中的实体的向量表示;随后使用LSTM对其进行编码并加上事件类型的嵌入转换为向量Gi后将其存储进全局存储器中;在识别其它事件第J个角色的论元时,对每个实体通过加入角色名嵌入来获得该实体新的表示其中RoleJ指第J个角色名的嵌入;随后,将实体嵌入句子特征S,当前的路径和全局存储器G拼接后输入到Transformer中获得新的实体特征矩阵其中ε表示实体的数量,具体公式如下所示: 其中和分别为S,Uj和G经过Transformer后得到的新的表示;将路径扩展视为多个二分类问题,即对中的每一个实体进行分类来判断是否进行路径扩展。

全文数据:

权利要求:

百度查询: 山西大学 一种基于多粒度实体异构图的篇章级事件抽取方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。