恭喜北京邮电大学李蕾获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京邮电大学申请的专利基于支持句预测的多任务文档级关系抽取方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114942977B 。
龙图腾网通过国家知识产权局官网在2025-04-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210599144.8,技术领域涉及:G06F16/334;该发明授权基于支持句预测的多任务文档级关系抽取方法及装置是由李蕾;李铁成;白文超设计研发完成,并于2022-05-30向国家知识产权局提交的专利申请。
本基于支持句预测的多任务文档级关系抽取方法及装置在说明书摘要公布了:本发明是一种基于支持句预测的多任务文档级关系抽取方法及装置,属于计算机自然语言处理中信息抽取技术领域。本发明装置包括文档预处理模块,预训练语言模型,图网络编码模块,图传播模块,支持句识别模块和关系分类模块。本发明方法包括:将文档分句、预处理;以句子为单位使用预训练语言模型进行编码;根据文档结构和预定规则构建图网络;对图网络进行卷积操作;寻找实体对的支持句,获取关系推理路径;对实体对进行关系分类;预先将寻找实体对的前馈神经网络与关系分类的全连接神经网络一起训练。本发明提高了对复杂语境下文档的实体关系的挖掘,及文档级关系的抽取效率,能进一步帮助实现信息抽取、自动问答等多种NLP任务的准确性。
本发明授权基于支持句预测的多任务文档级关系抽取方法及装置在权利要求书中公布了:1.一种基于支持句预测的多任务文档级关系抽取方法,其特征在于,包括:步骤1,将中文文档分成多个句子,对句子进行清洗,基于BERT系列的中文词表获得所有句子对应的词表;步骤2,以句子为单位使用预训练语言模型进行编码,将句中分词表示为嵌入向量;步骤3,根据文档的结构,按照预定规则构建图网络;所述的图网络包含四种节点类型:文档节点、句子节点、实体节点和提及节点;节点之间通过如下预定规则建立边:1如果提及M在句子S中出现,则连接该提及节点M和句子节点S;2按照句子在文档中的出现顺序,将句子节点与邻接的句子节点相连;3每个实体节点与该实体所有的提及节点相连;4将文档节点与所有的句子节点相连;5同一实体的所有提及节点之间两两连接;根据文本获取各节点的嵌入向量,具体是:根据预训练语言模型编码获得所有句子分词的嵌入向量,句子节点和提及节点的嵌入向量均通过对应句子所包含的分词的嵌入向量平均池化得到,文档节点的嵌入向量通过对所包含的句子节点的嵌入向量平均池化得到,实体节点的嵌入向量通过对所包含的提及节点的嵌入向量平均池化得到;步骤4,使用图神经网络对所构建的图网络进行卷积操作;步骤5,获得文档中所有实体对的组合,对每个实体对之间的关系类别进行推理,识别每个实体对的支持句;对实体对eh,et识别支持句时,先将两个实体的嵌入向量拼接得到一个查询向量,然后将查询向量与每个句子向量拼接后输入到第一前向神经网络中,第一前向神经网络输出概率值p,与预设的判断为支持句的阈值θ比较,当满足p≥θ时,判断句子为实体对eh,et的支持句;h,t均为正整数;步骤6,对实体对进行关系分类,包括:将实体对的两个实体的嵌入向量和支持句的嵌入向量进行拼接,将拼接后的向量输入第二前向神经网络,输出实体对的关系类型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京邮电大学,其通讯地址为:100876 北京市海淀区西土城路10号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。