首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文档级事件论元提取方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:天津大学合肥创新发展研究院

摘要:本发明提供文档级事件论元提取方法及系统,方法包括:利用基于事件共指实体的文本标记模块进行语义相似度计算,检索、标记原始文本的事件共指实体,得到共指增强文本;基于双路编码器与解码器的模型结构,拼接原始文本、共指增强文本与对应事件描述模板,共享参数编码器编码得到文本表示,提取论元表示进行表示对齐,根据对齐损失函数进行模型优化;利用生成式事件论元识别和提取模块,处理得到文本表示,获取事件论元抽取生成序列,处理得到事件论元抽取结果。本发明解决了由于论元分散、论元与触发词间距离过大、文档冗余、误差传播,导致事件论元信息抽取准确性及模型泛化性较差的技术问题。

主权项:1.文档级事件论元提取方法,其特征在于,所述方法包括:S1、基于事件共指实体,设计文本标记模块,对原始文本中的实体、触发词以及论元角色名称进行编码,得到文本表示,通过对所述文本表示进行语义相似度计算及检索操作,得到并标记所述原始文本中所有的事件共指实体,根据所述事件共指实体获取共指增强文本,利用共指增强文本体现所述原始文本中的事件上下文信息;S2、基于双路编码器与解码器的模型结构,构建双路表示对齐模块,对所述原始文本、所述共指增强文本,分别与对应事件描述模板进行拼接操作,利用共享参数编码器进行编码,得到拼接文本表示,从所述拼接文本表示中提取论元表示,利用共享参数解码器处理所述论元表示,得到论元输出,根据所述论元输出进行表示对齐操作,结合对齐损失函数以及交叉熵损失,对论元提取模型进行模型优化训练操作;所述S2中,所述模型优化训练操作包括:S21、输入包含事件文档;S22、将所述包含事件文档,与所述对应事件描述模板进行拼接并输入至所述共享参数编码器,得到原始文本表示;S23、执行所述S1,以利用所述文本标记模块处理得到所述共指增强文本;S24、将所述共指增强文本,与所述对应事件描述模版拼接并输入到所述共享参数编码器,得到共指增强文本表示;S25、利用所述双路表示对齐模块,计算所述原始文本表示与所述共指增强文本表示中的所述对齐损失函数;其中,所述S25中,利用下述逻辑,定义所述对齐损失函数Lfusion: 式中,表示基于原始文本得到所述论元表示的概率,pa|ce表示基于共指增强文本ce得到所述论元表示的概率,表示基于所述原始文本得到所述论元表示的概率、基于所述共指增强文本ce得到所述论元表示的概率pa|ce在高维空间中对应的两个点之间的欧几里得范数;S26、将所述原始文本表示输入至共享参数解码器,得到原始事件论元文本输出;S27、将所述共指增强文本表示输入到所述共享参数解码器,得到增强事件论元文本输出;S28、根据所述原始事件论元文本输出、所述增强事件论元文本输出,进行所述表示对齐操作,处理得到所述论元表示,基于所述交叉熵损失以及所述对齐损失函数优化所述论元提取模型;其中,所述S28中,设正确结果为,事件触发词为,对应事件描述模板为,模型参数为,当前模型预测正确的概率为,利用下述逻辑,定义原始文本和所述共指增强文本ce的事件论元抽取过程中,所述交叉熵损失的函数关系: 式中,表示基于原始文本的论元损失函数,表示基于共指增强文本ce的论元损失函数,o表示原始的original,e表示增强的enhanced,base表示基于不同文本进行的操作,表示在所述对应事件描述模板为、所述事件触发词为时,基于所述原始文本得到所述正确结果的概率,表示在所述对应事件描述模板为、所述事件触发词为时,基于所述共指增强文本ce得到所述正确结果的概率;利用下述逻辑,按照预置权重,进行损失函数求和操作,得到所述论元提取模型的总损失函数: 式中,表示基于原始文本的论元损失函数,表示基于共指增强文本ce的论元损失函数,表示基于所述原始文本的论元损失函数的权重,表示基于所述共指增强文本ce的论元损失函数的权重,表示所述对齐损失函数的权重,表示所述总损失函数;S3、利用生成式事件论元识别和提取模块,将测试文本输入所述论元提取模型,以进行模型测试操作,经过论元提取编码器处理得到测试文本表示,利用论元提取解码器处理所述测试文本表示,得到事件论元抽取结果。

全文数据:

权利要求:

百度查询: 天津大学合肥创新发展研究院 文档级事件论元提取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。