大连理工大学姚念民获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉大连理工大学申请的专利一种基于对词元序列的预判断和多轮分类的实体关系抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115982648B 。
龙图腾网通过国家知识产权局官网在2026-01-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310136783.5,技术领域涉及:G06F18/2413;该发明授权一种基于对词元序列的预判断和多轮分类的实体关系抽取方法是由姚念民;佟缘;赵剑;张亚楠设计研发完成,并于2023-02-20向国家知识产权局提交的专利申请。
本一种基于对词元序列的预判断和多轮分类的实体关系抽取方法在说明书摘要公布了:一种基于对词元序列的预判断和多轮分类的实体关系抽取方法,在词元序列tokensequence,即span层次上对文本语句进行预测的模型,用以找出文本语句中所有实体及实体间关系。模型利用BERT预训练模型,同时包含预判断PEJ、实体多轮分类EMR、关系多轮分类RMR三个模块。通过PEJ模块对实体的初步判断及EMR模块的多轮实体分类进行实体识别,再利用RMR模块多轮关系分类判断实体对间关系,实现关系抽取。Smrc模型中的多轮分类使得数据集被多次、充分的利用,模型被更好的拟合,多个分类器在多个类别上直接判断实体及实体对间关系,避免了单个多输出分类器在不同类别上判别能力不平衡和差异性大的问题,模型结构更为精细,加上实体预判断模块PEJ,使得Smrc模型识别效果更加准确。
本发明授权一种基于对词元序列的预判断和多轮分类的实体关系抽取方法在权利要求书中公布了:1.一种基于对词元序列的预判断和多轮分类的实体关系抽取方法,包含以下步骤: 步骤1: 利用BERT预训练语言模型对输入语句X进行处理,得到向量序列:CLS,X1,X2,…,Xn,其中,CLS表示X的全局信息;对于宽度为L的spans,其BERT向量表示为:Xi,Xi+1,…,Xi+L-1; span向量表示编码器模块:利用BERT预训练语言模型得到输入语句中各个候选span的向量表示; 步骤2: 将对应每一span的输入信息表示输入到实体预判断模块PEJ中的sigmoid分类器,判断该span是否属于实体,对于宽度为L的spans,其在sigmoid分类器上的输入信息表示由三部分拼接组成,第一部分为该spans的BERT向量表示Xi,Xi+1,…,Xi+L-1的最大池化,表示为i1s: Berts=Xi,Xi+1,…,Xi+L-1; i1s=maxpoolBerts; 考虑到span宽度特征对模型的作用,使用一个宽度嵌入矩阵,表示为WE;WE中对应不同的span宽度均有一个相同维数的向量表示,WE通过反向传播进行参数优化;嵌入向量WEL作为输入信息表示的第二部分,表示为i2s:i2s=WEL; 采用CLS作为输入信息表示的第三部分,表示为i3s:i3s=CLS; 拼接输入信息表示的三部分,表示为is:is=i1si2si3s; 其中符号[.]表示向量拼接组合; 实体预判断模块PEJ:判断输入语句中满足长度限制的各个span是否属于实体,保留被判断为属于实体的span; is输入PEJ模块进行预判断: ps=σWeis+be; 其中符号表示矩阵乘法,We和be分别表示ec0的权重和偏差,σ表示sigmoid函数;ps是s在ec0上的预测值;高预测值表示s属于实体的可能性大;给定阈值α,psα表示s属于实体,否则不属于; 步骤3: 对于上一步骤中判断为实体的spans,将其对应的输入信息表示输入实体多轮分类模块EMR中,对应各实体类别分类器做进一步实体判断及所属具体实体类别判断; 实体多轮分类模块EMR:经过PEJ模块初步判断span是否属于实体之后,对保留下的span进行做进一步的判断,具体地,分别判断span是否属于实验集中预先定义的各实体类别,若span不属于任一实体类别,则认为span不属于实体,不属于则筛除,否则保留span及其对应的一个或多个实体类别; 经过PEJ模块初步判断span是否属于实体之后,对保留下的span进行做进一步的判断,具体地,分别判断span是否属于实验集中预先定义的各实体类别,若span不属于任一实体类别,则认为span不属于实体,不属于则筛除,否则保留span及其对应的一个或多个实体类别; 预先定义数据集中包含4类实体、5类关系,则在分别对应4类实体的分类器ec1、ec2、ec3、ec4上,判断spans是否属于相应实体类别e1、e2、e3、e4,若不属于任一类别,则筛除spans;各分类器对spans进行预测: ; ; ; ; 其中,、、、、、、、分别表示ec1、ec2、ec3、ec4上的权重和偏差;、、、表示在各类别上预测的二维向量,两个值分别表示spans不属于、属于各对应类别的概率;筛除被判断为不属于任一类别的span,保留其余span及其对应一个或多个类别;Spre表示保留下的span的集合; 步骤4: 关系多轮分类模块RMR:实体多轮分类模块EMR中筛选出的实体集合,依次判断每一对实体间是否存在实验集中预定义的各关系类别,若实体对间不存在任一关系类别,则认为实体对间不存在关系,否则保留实体对、实体对中两个实体的实体类别及其存在的一个或多个关系类别; 多轮关系分类模块RMR对上一步骤中得到的集合SpreSpre中的实体对进行关系抽取,设定数据集中关系类别数量为5,RMR模块中对应5个关系类别的分类器rc1、rc2、rc3、rc4、rc5分别判断SpreSpre中实体对s1,s2是否存在相应关系r1、r2、…、r5;各分类器的输入信息包含三部分信息,第一部分是实体s1、s2的BERT向量表示的最大池化,第二部分是两实体的宽度嵌入信息,第三部分则是实体对s1,s2在句子中的上下文信息,模型采用实体s1末尾位置到s2开头位置之间的span的BERT表示的最大池化作为第三部分输入,表示为cs1,s2;最后,将三部分信息进行拼接: ; 然后各关系分类器预测实体对之间的关系: ; ; ; ; ; 、、、、、、、、、分别表示各分类器上的权重和偏差;、、、、分别表示在各分类器上输出的二维向量,两个值分别表示实体对不存在、存在对应类别关系的概率,预测得出关系集合Rpre; 通过以上步骤,可识别得到文本语句中的实体集合Spre,抽取出关系集合Rpre; 用于模型训练的数据集中每条语句包含句子、实体、关系,其中实体表示为[起始位置索引,结束位置索引,实体类型],关系表示为[头实体索引,尾实体索引,关系类型];模型损失为PEJ、EMR、RMR模块中各个分类器的损失之和,PEJ模块中分类器ec0是sigmoid分类器,因此采用binary-cross-entropy-loss计算损失,而EMR和RMR模块中各个分类器都是softmax分类器,因此采用cross-entropy-loss计算损失,Smrc模型总损失表示为分别表示模型分类器ec0,ec1,ec2,ec3,ec4,rc1,rc2,rc3,rc4,rc5上训练数据的损失;,,分别表示PEJ、EMR、RMR模块整体的损失,则有: ; ; ; ; 对于PEJ和EMR模块各分类器训练数据的选择,语句X中选取带有标签的实体集St:{s1,e1、s2,e2、s3,e3、s4,e4}作为训练正例,同时在满足宽度限制的所有span中随机选取ce=100个不属于实体的span:f1,none,f2,none,,fce,none; RMR模块中关系训练负例的选择与PEJ、EMR中的随机选取方式不同,从具有实体标签的实体的自由组合中选取。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励