一种基于自动问答的实体关系联合抽取方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国人民解放军国防科技大学

摘要：本发明公开了一种基于自动问答的实体关系联合抽取方法，属于信息抽取和自然语言处理技术领域。包括对数据进行预处理；设计实体抽取问题模板并生成实体抽取问答对；基于预训练语言模型的第一自动问答模型抽取实体；结合识别出的实体和根据数据集特点设计的关系抽取问题模板，采用无监督方式生成关系抽取问答对；基于预训练语言模型的第二自动问答模型抽取关系；将第一自动问答模型和第二自动问答模型进行联合训练；将关系抽取问答对和输出的尾实体进行三元组转化。本发明将实体关系抽取转化为问答任务，可以有效解决实体关系抽取中存在的跨句关系、多元关系难以识别的问题，且能识别出训练集中未预先定义的实体关系类型。

主权项：1.一种基于自动问答的实体关系联合抽取方法，其特征在于，包括：对数据进行预处理，至少包括分词和词性标注；还包括去停用词，去停用词的方法是根据停用词表删除文本中的助词、语气词；根据数据集特点设计实体抽取问题模板，并根据模板生成实体抽取问答对；根据数据集特点设计实体抽取问题模板，并根据模板生成实体抽取问答对的方法包括：通过对数据集进行分析，对不同类型的头实体设计不同的问题，形成实体抽取问题模板；当给定一段输入文本后，对所有头实体类型遍历进行提问，若文本中存在该类型的头实体，则将该头实体标记为问题的答案，若不存在该类型的头实体，则将答案标记为None，构造出实体抽取问答对；将实体抽取问题和给定文本输入到基于预训练语言模型的第一自动问答模型中，输出实体；基于预训练语言模型的问答模型包括将高维离散空间的词映射到低维连续空间向量的嵌入编码输入、预训练和输出微调；构造所述基于预训练语言模型的第一自动问答模型的方法包括：将输入文本、问题进行拼接，并对其进行嵌入编码；将文本、问题嵌入编码的结果输入到预训练语言模型中；对预训练语言模型的输出层进行微调；所述将输入文本、问题进行拼接的方法为：给定问题和文本其中Nq和Nc分别表示问题和文本中的字数，将问题和文章用特殊符号[CLS]和[SEP]拼接，输入形式为[CLS]Q[SEP]C[SEP]；嵌入编码的方法为：以序列[CLS]Q[SEP]C[SEP]中每一个字的字向量、片段向量和位置向量的和作为嵌入编码；所述预训练语言模型为BERT模型；所述对预训练语言模型的输出层进行微调的方法为：将BERT模型的输出结果输入到全连接层中，之后再进行Softmax；求得开始位置和结束位置概率最高的位置，将从开始位置到结束位置之间的序列作为预测答案的输出；还包括：对基于预训练模型的第一自动问答模型进行训练，训练的方法为：通过最小化开始和结束位置负对数的概率和，公式如下：其中，N是训练样本中的样例数，和是样例i的真实标记的开始位置和结束位置，是预测答案开始位置在的概率，是预测答案结束位置在的概率，θ表示模型中所有可训练权重的集合；给预测答案开始和结束位置的置信度得分向量pb和pe分别拼接一个可训练的偏置t，新的置信度得分向量表示为其中NS表示句子中的字数，“；”表示按行进行拼接；没有答案时的概率表示为：其中a表示答案，表示没有答案；当的概率大于最优答案片段的得分时，则该问题没有答案；结合识别出的实体和根据数据集特点设计的关系抽取问题模板，采用无监督方式生成关系抽取问答对：通过对数据集进行分析，对不同类型的头实体、关系设计不同的问题，形成关系抽取模板；对实体抽取识别的每一个实体可能存在的关系根据问题模板进行提问，并将问题模板中的“xx”替换为实体抽取识别出的实体，若该实体在文本中存在该类的关系，则将尾实体作为问题的答案，反之，若不存在该类关系，则问题的答案为None，以此方法循环遍历所有样例构造关系抽取问答对；将关系抽取问题和给定文本输入到基于预训练语言模型的第二自动问答模型中，输出尾实体；将第一自动问答模型和第二自动问答模型进行联合训练；将关系抽取问答对和输出的尾实体进行三元组转化，输出由主语、谓语、宾语构成的三元组，分别对应头实体、关系和尾实体。

全文数据：

权利要求：

百度查询：中国人民解放军国防科技大学一种基于自动问答的实体关系联合抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：行人头部碰撞A柱保护装置、控制方法及汽车

下一篇：一种角膜成像系统、同轴瞳孔位置检测方法以及角膜成像方法

相关技术

行人头部碰撞A柱保护装置、控制方法及汽车

一种角膜成像系统、同轴瞳孔位置检测方法以及角膜成像方法

一种基于三波段光谱的壁画地仗磷酸盐含量检测方法

基于变分模态分解的心脑耦合特征提取方法及系统

一种汽车零部件喷涂设备及其使用方法

一种心肌梗死改进动物模型及其构建方法

髋臼周围截骨术的术中截骨实时定位导航方法及系统

一种颗粒状食品加工的造粒装置

一种露天爆破装药辅助装置

I2C接口电路和电子芯片

一种具有调节轴心功能的滚动轴承

一种涤纶长丝生产自动缠绕打结装置

关系相关技术

评估信息确定方法及相关系统、存储介质_华为技术有限公司_202310534752.5

一种事件隐式关系抽取方法_郑州大学_202410967273.7

一种面向农业气象灾害的零样本事件关系抽取方法_山东科技大学_202410979552.5

清洗次数函数关系获取方法、滤芯清洗方法及清洗系统_上海恩捷新材料科技有限公司_202410848039.2

一种基于自动问答的实体关系联合抽取方法_中国人民解放军国防科技大学_202111068697.2

基于多步攻击的攻击关联关系检测方法及相关设备_北京邮电大学_202310696059.8

交通工具舱室内部面板及相关系统和方法_波音公司_202410583895.X

一种鉴定生物学亲缘关系的分析方法_中科(广州)生命科学研究有限公司_202411179792.3

一种文本关系提取方法、装置、介质及设备_深圳前海环融联易信息科技服务有限公司_202410956871.4

一种基于神经核方法的关系抽取方法_贵州大学_202411431795.1

实体相关技术

幕墙实体的调整方法和装置_建泰建设有限公司_202011628667.8

一种实体肿瘤活检穿刺取样装置_深圳市盐田区人民医院_202411172706.6

网络选择方法、AMF实体、通信系统和存储介质_中国电信股份有限公司北京研究院_202310518389.8

一种基于大模型的掩码增强命名实体识别方法_江南大学_202411377901.2

一种基于自动问答的实体关系联合抽取方法_中国人民解放军国防科技大学_202111068697.2

一种基于中文语义增强的法律文书实体抽取方法_上海交通大学_202410987528.6

一种基于知识蒸馏的多任务电力数据实体识别方法_国网湖北省电力有限公司江陵县供电公司_202410947638.X

无线通信方法和用于无线通信的用户装备和网络实体_高通股份有限公司_202411332946.8

一种建制镇实体地域边界识别方法、系统、终端及介质_深圳大学_202411150049.5

语音识别导航域实体的纠错方法、装置、设备和存储介质_岚图汽车科技有限公司_202410990450.3

联合相关技术

基于联合生产系统的面板生产方法及系统_格创东智(深圳)科技有限公司_202411108071.3

多能源互补联合并网调控系统_内蒙古工业大学_202310528422.5

水力-机械联合破岩TBM刀盘_中国科学院武汉岩土力学研究所_201911024074.8

水田苗床间隔式多功能联合整地机_东北农业大学_202010765977.8

电驱动车辆质心位置联合估计方法和装置_清华大学_202411062111.5

一种双驱动联合阀式微流泵_华中农业大学_202411069224.8

用于联合传输的传输块大小确定_高通股份有限公司_202411022608.4

一种基于时频域联合特征的电池健康状态快速评估方法_上海炙云新能源科技有限公司_202411050476.6

MEC辅助系统中的多维度资源联合优化方法_上海大学_202410946105.X

一种便于上料的联合冲剪机_南江东科钢模板有限责任公司_202323612668.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于自动问答的实体关系联合抽取方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务