Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于预训练模型增强的图谱关系抽取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:湖南董因信息技术有限公司

摘要:本发明公开了基于预训练模型增强的图谱关系抽取方法,所述方法包括:构建关系抽取模型,包括分组悬浮标记、预训练语言模型和关系预测层;文本数据预处理及分组悬浮标记初始化,得到文本及悬浮标记的特征序列;计算注意力掩码;使用注意力掩码控制预训练语言模型特征传播方向,提取出悬浮标记对的特征;把悬浮标记对的特征输入关系预测层,得到关系概率向量;对关系概率向量计算损失函数,优化损失函数,训练关系抽取模型,用关系抽取模型进行关系抽取。本发明提出了分组悬浮标记的实体对表示方法,通过对悬浮标记进行分组,每个组复用头实体的特征,设计特定的注意力掩码,实现实体对特征的高效聚合,在较少计算量下实现了高精度的关系抽取。

主权项:1.基于预训练模型增强的图谱关系抽取方法,其特征在于,所述方法包括:步骤1,构建关系抽取模型,包括分组悬浮标记、预训练语言模型和关系预测层;步骤2,文本数据预处理及分组悬浮标记初始化,得到文本及悬浮标记的特征序列;步骤3,计算注意力掩码;步骤4,使用注意力掩码控制预训练语言模型特征传播方向,提取出悬浮标记对的特征;步骤5,把悬浮标记对的特征输入关系预测层,得到关系概率向量;步骤6,对关系概率向量计算损失函数,优化损失函数,训练关系抽取模型,用关系抽取模型进行关系抽取;所述的图谱为医疗知识图谱,所述图谱的实体包括疾病、症状、药品、手术,所述的图谱的关系包括疾病-症状关系、疾病-药品关系、疾病-疾病关系、症状-症状关系、疾病-手术关系;所述的文本数据预处理及分组悬浮标记初始化,得到文本及悬浮标记的特征序列,包括以下步骤:步骤201,对输入文本进行分词,得到分词序列;步骤202,在分词序列的每个实体前插入“e”标记,在每个实体后插入“e”标记,用于标记出实体的位置,并在分词序列首部插入起始标记“CLS”,在尾部插入终止标记“SEP”;步骤203,使用预训练语言模型Roberta-large的词嵌入模型把分词序列映射为词向量序列,对于总分词数为,总实体数为的分词序列,该分词序列映射得到的词向量序列数学表达式为: ;其中,表示起始标记“CLS”的词向量,表示终止标记“SEP”的词向量,表示第i个词的词向量,表示第i个“e”标记的词向量,每个“e”标记内容是固定的,因此每个“e”标记词向量是相同的;步骤204,使用预训练语言模型Roberta-large的位置嵌入模型获得分词序列的位置嵌入序列,对于所述的分词序列获得的位置嵌入序列的数学表达式为: ;其中,表示起始标记“CLS”的位置嵌入,表示终止标记“SEP”的位置嵌入,表示第i个词的位置嵌入,表示第i个“e”标记的位置嵌入,每个“e”标记位置是不同的,因此每个“e”标记的位置嵌入是不同的;步骤205,把分词序列映射得到的词向量序列和分词序列的位置嵌入序列按元素相加,得到分词序列的特征嵌入序列,数学表达式为: ;步骤206,生成悬浮标记特征;第i个悬浮标记的特征为第i个“e”标记的词向量加上第i个“e”标记的位置嵌入,数学表达式为: ;其中,表示第i个悬浮标记的特征;步骤207,生成悬浮标记特征序列;实体数为m,则有m个悬浮标记,目标是生成包含m组悬浮标记的悬浮标记特征序列,第i组悬浮标记的生成方式为:把第i个悬浮标记的特征放在第i组悬浮标记序列的开头,其他悬浮标记按在文本中出现的顺序从小到大排在第i组悬浮标记序列的后面,其中i=1,2,3,…,m;将m组悬浮标记特征序列按顺序拼接在一起,得到长度为的悬浮标记特征序列;步骤208,把分词序列的特征嵌入序列和悬浮标记特征序列拼接在一起,数学表达式为: ;其中,表示文本及悬浮标记的特征序列;所述的计算注意力掩码,包括以下步骤:所述的分词序列的特征嵌入序列序列长度为,悬浮标记特征序列序列长度为,实体数,生成一个大小为的矩阵,矩阵中元素赋值的数学表达式为: ;其中,是注意力掩码,表示第i行第j列的元素;所述的使用注意力掩码控制预训练语言模型特征传播方向,提取出悬浮标记对的特征,包括以下步骤:步骤401,把所述的文本及悬浮标记的特征序列输入预训练语言模型Roberta-large中,并用所述的注意力掩码作为Roberta-large前向传播的掩码,数学表达式为: ;其中,是输出的最后一层隐藏层的特征,d是的隐藏层维度,为所述的分词序列的特征嵌入序列序列长度,为所述的悬浮标记特征序列序列长度;步骤402,从输出的最后一层隐藏层的特征选取出每个实体对的特征,数学表达式如下: ;其中,表示第i个实体和第j个实体的悬浮标记对的特征,表示从目标张量的第0维度进行索引的操作。

全文数据:

权利要求:

百度查询: 湖南董因信息技术有限公司 基于预训练模型增强的图谱关系抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术