首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种低资源下融合多维特征的联合解码三元组抽取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京新一代人工智能研究院有限公司

摘要:本发明公开了一种低资源下融合多维特征的联合解码三元组抽取方法,涉及自然语言处理中的实体和关系联合抽取领域,在标注成本匮乏情况下,将训练数据进行分词后,获得底层自然语言处理特征词性、句法依存和语义依存,将底层自然语言处理特征与RoBERTa字级编码结合,弥补语料匮乏带来的语义和句法特征捕获不足的问题;输入联合解码模型TPLinker,解决暴露偏差问题和关系重叠问题,基于多种主动学习策略,计算关系三元组的标注价值,将标注价值高的交由专家标注并输入模型进行训练,减少语料标注数量的同时,提升模型编码性能,重复三元组价值计算、专家标注、模型训练过程,直到达到多对多三元组抽取精度目标。

主权项:1.一种低资源下融合多维特征的联合解码三元组抽取方法,其特征在于:将训练数据进行分词,获得底层自然语言处理特征词性、句法依存和语义依存,将底层自然语言处理特征与预训练模型RoBERTa字级编码结合,输入联合解码模型TPLinker,基于主动学习主动学习的不确定性采样策略,计算关系三元组的标注价值,将标注价值高的交由专家标注并输入模型进行训练,重复三元组价值计算、专家标注、模型训练过程,直到达到多对多三元组抽取精度目标,具体包括以下步骤:步骤1:将训练数据分别输入预训练模型RoBERTa和语法工具HanLP中,得到字级的语义特征和词级底层自然语言处理特征,所述词级底层自然语言处理特征包括词性特征、句法依存特征和语义依存特征;步骤2:将词级底层自然语言处理特征拆分并与字级语义特征融合,输入TPLinker模型进行训练;步骤21:将基于分词结果获取的三维底层自然语言处理特征,拆分为字级特征,针对词性特征,将词性特征复制到每个字符中;针对句法和语义依存特征,将依存特征复制到每一个字符的同时,依存关系头尾分配不同的向量;步骤22:将字级的词性特征、句法依存特征、语义依存特征和语义特征融合;对于句子[w1,…wn],如果字wi分配到的词性为名词,句法依存特征为被指向主谓关系,语义依存特征为指向施事关系,则向量编码计算如下: 其中,CN为词性名词向量,SSBV_R为被指向主谓关系向量,DAGT_L为指向施事关系向量,为预训练模型RoBERTa编码字wi的向量;步骤23:将编码输入TPLinker模型,进行训练;获取实体对wi,wj生成的表示hi,j如下所示:hi,j=tanhWh·[hi;hj]+bh,j≥i其中Wh是参数矩阵,bh是训练中要学习的偏差向量,hi和hj分别是字wi和wj的向量;对于实体开始-实体结束,头实体开始-尾实体开始,头实体结束-尾实体结束,使用统一的标注架构,实体对wi,wj的关系预测结果linkwi,wj,计算公式如下:pyi,j=SoftmaxWo·hi,j+bo 其中Pyi,j=l表示将wi,wj的链接识别为l的概率,Wo是参数矩阵,bo是偏差向量;步骤3:TPLinker模型训练完成后,判断F1值、损失值或未标注数据数量是否达到停止条件,若是,则进行步骤5,否则进入步骤4;步骤4:基于三种不确定抽样的主动学习策略边际抽样、N-best序列熵和最大规范化对数概率,计算句子的标注价值,将排名前N个句子交由专家标注并注入已标注池;步骤41:将未标注数据池中的数据输入TPLinker模型中,最大似然估计法训练的实体对关系分类器,得到句子[w1,…wn]中所有实体对识别为相应类型关系的概率集合{Py1,1=l1,Py1,1=l2,…,Pyi,j=lN},其中N为所有关系种类数量;步骤42:使用三种基于不确定抽样的主动学习策略:边际抽样、N-best序列熵和最大规范化对数概率,计算句子的标注价值;步骤43:使用动态加权法获得序列最终得分;步骤44:将序列最终价值得分进行排序,将排名前N个句子,交由专家进行标注,标注后,注入已标注数据池,重复编码模块、学习模块、判断过程;步骤5:输出训练完成的联合编码模型,词性向量字典、句法依存向量字典和语义依存向量字典构成三元组抽取的预训练模型,对新输入的句子进行三元组抽取。

全文数据:

权利要求:

百度查询: 南京新一代人工智能研究院有限公司 一种低资源下融合多维特征的联合解码三元组抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。