Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国科学院信息工程研究所康雪获国家专利权

中国科学院信息工程研究所康雪获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国科学院信息工程研究所申请的专利一种基于联合学习的封闭域篇章级事件抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117743600B

龙图腾网通过国家知识产权局官网在2025-09-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311836718.X,技术领域涉及:G06F16/36;该发明授权一种基于联合学习的封闭域篇章级事件抽取方法是由康雪;韩言妮;张雯;安伟设计研发完成,并于2023-12-28向国家知识产权局提交的专利申请。

一种基于联合学习的封闭域篇章级事件抽取方法在说明书摘要公布了:本发明提供了一种基于联合学习的封闭域篇章级事件抽取方法,数据集构建阶段,将带有事件类型、论元角色及论元实体标注的篇章级中文金融公告事件数据集,按照比例划分为训练集,验证集和测试集;将构建的数据集输入到基于联合学习的封闭域篇章级事件抽取模型PRAP中,PRAP包含5个部分,分别是论元实体识别模块,语义融合编码模块,论元组合抽取模块,事件类型检测模块和事件记录生成模块;定义模型损失函数,训练搭建的神经网络模型。总体损失Ltotal由论元实体识别损失、论元组合抽取损失、事件类型检测损失和论元角色分类损失四部分组成。本发明可以高效准确地并行抽取事件类型及论元组合、最大程度上缓解错误级联问题。

本发明授权一种基于联合学习的封闭域篇章级事件抽取方法在权利要求书中公布了:1.一种基于联合学习的封闭域篇章级事件抽取方法,其特征在于,所述方法包括以下步骤: 第一步,数据集构建阶段,通过该阶段将带有事件类型、论元角色及论元实体标注的篇章级中文事件数据集ChiFinAnn,按照8:1:1的比例划分为训练集,验证集和测试集; 第二步,将构建的数据集输入到基于联合学习的封闭域篇章级事件抽取模型PRAP中,PRAP包含5个子模块,分别是论元实体识别模块,语义融合编码模块,论元组合抽取模块,事件类型检测模块和事件记录生成模块;论元实体识别模块从原始篇章级文本中识别所有论元实体提及,并编码得到初步的论元实体提及嵌入表示和句子嵌入表示; 语义融合编码模块利用基于先验关系增强的PRAT注意力模型,对论元实体提及嵌入表示、句子嵌入表示以及实体提及与句子间的多重先验依赖关系进行语义融合编码,以得到含有丰富语义信息、具有篇章级上下文感知的事件论元及文本嵌入; 基于论元实体预识别的实现,得到文档中的所有实体提及的表示,其中的上标m表示实体提及,下标i表示索引;在此基础上构建一个先验关系矩阵,其中c表示论元实体提及与句子间先验依赖关系的数量,t表示句子数量,j表示实体提及数量,矩阵T由c个具有相同维度的矩阵r组成,其中每个r表示一种先验依赖关系: 3Co‑reference:实体提及共指关系,显示指向相同实体的实体提及之间的依赖关系; Co‑existence:句子及句中实体共存关系,句子与该句中所有实体提及间均存在该关系; Adj‑sentence:邻接句关系,文档中任意两条邻接句子均存在该关系; Exi‑entity:句中共存实体关系,显示指向一个句子中所有实体提及之间的依赖关系; NA:剩余没有任何依赖关系的实体‑实体、实体‑句子对; 对于T中的元素,表示和之间的依赖关系;具体而言,如果它们具有第k种依赖关系,则=1,否则=0;其中,∈{}是论元实体提及或句子; 令作为PRAT注意力模块的输入嵌入,其中d表示网络隐藏层维度;定义,为权重矩阵,为偏置矩阵,通过线性变换计算先验关系增强查询矩阵和键矩阵,并引入先验关系矩阵计算先验关系增强注意力: 4其中,表示先验关系增强注意力的分数矩阵, 表示元素级相乘;此外,PRAT注意力模型按照以下方式计算自注意力查询矩阵、键矩阵、值矩阵以及自注意力得分,并将其与结合起来: 56O是注意力模块的整体输出, PRAT注意力模型具有多个相同的块,逐层堆叠起来,最终得到含有丰富篇章级语义信息的事件论元及文本嵌入表示; 论元组合抽取模块利用基于论元优先级的事件团搜索算法,在具有篇章级上下文感知的事件论元表示的基础上对所有候选事件论元进行多事件团分类,以实现多事件论元组合抽取; 首先,本模块利用量化的优先级论元指标选择核心论元团,论元优先级指标由存在性和唯一性两部分组成,表达式为: 7其中,为给定事件类型预定义的所有论元角色的子集将R对应的论元块视为核心论元的候选,是事件类型的总记录数,存在性衡量了论元集合是否能够识别事件,表示事件类型中对应的论元至少有一个不为空的事件记录数;唯一性衡量了论元集合是否能够唯一区分不同的事件,表示事件类型中核心论元组对应的论元未出现在其他事件类型记录中的记录数,最终选择拥有最高优先级的论元块为核心论元,其余论元为普通论元;依据同一事件组合中的任意两个核心论元间的连接是无向的,且同一事件组合中的核心论元通过有向边指向所有普通论元的策略,自动构建正确的论元语义混合标注图; 通过上述语义融合编码模块,可得到实体矩阵表示,其中表示实体数量;然后由于同一事件中的论元彼此之间语义空间距离更接近,本模块在实体矩阵表示层后添加一个语义倾向函数度量层,以评估实体间的语义倾向性,其函数表达式为: 8其中,、是用于语义空间线性投影的可训练参数,是注意力缩放维度,即为计算所得语义倾向矩阵,并设置阈值: 9将中语义倾向性的实体指向,进而构建出模型训练所得事件论元语义混合图;最后,本模块使用Bron‑Kerbosch算法基于论元结点的入度出度进行最大团划分,以得到多个事件论元组合,采用二元交叉熵函数来评估事件论元组合抽取损失,其训练函数为: 10其中,表示实体与实体间是否存在边的真实标签; 事件类型检测模块的目标是在具有篇章级上下文感知的句子表示的基础上识别文档中的所有事件类型; 事件记录生成模块对候选事件类型和事件论元组合进行匹配映射,以得到文档具体的事件类型对应的论元组合及论元角色; 第三步,定义模型损失函数,训练搭建的神经网络模型;总体损失由论元实体识别损失、论元组合抽取损失、事件类型检测损失和论元角色分类损失四部分组成。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院信息工程研究所,其通讯地址为:100093 北京市海淀区闵庄路甲89号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。