买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了基于信息多步融合和边界对齐的古汉语实体关系抽取方法,该方法通过多步融合关系语义信息和实体边界对齐完成古汉语实体关系抽取;通过多步融合关系语义信息丰富文本中的关系特征,缓解了古汉语实体关系抽取中关系抽取召回率较低问题,同时,将实体关系抽取任务建模为实体抽取和初始三元组抽取两个子任务并利用实体边界对齐验证,提升了复杂文本场景下实体边界识别和实体关系三元组抽取的准确率,降低了信息抽取的冗余度;本发明采用联合抽取实体及其关系的方式,避免了实体识别到关系抽取过程中存在的误差传播问题。
主权项:1.基于信息多步融合和边界对齐的古汉语实体关系抽取方法,其特征在于,包括如下步骤:步骤S1:构建古汉语实体关系数据集,古汉语实体关系数据集包括若干条古汉语文本;步骤S2:对古汉语实体关系数据集进行定义,设定包含条古汉语文本的古汉语实体关 系数据集为,为中第条古汉语文本;古汉语文本为,为中的第个字;预定义的关系集合为,包含个关系类别,为中第类关系;从古汉语文本中抽取实体和关系并通过三元组的格式 输出,实体包括主实体和客实体,三元组表示为,表示 中主实体的跨度,表示Y中客实体的跨度,表示中主实体和客实体之间的关系; 步骤S3:构建古汉语实体关系抽取模型,所述古汉语实体关系抽取模型由特征编码器、融合器、实体抽取器、实体关系三元组抽取器、实体边界对齐模块组成;特征编码器包括文本特征编码器和关系特征编码器;融合器由相互交互的文本关系信息融合器和关系文本信息融合器组成,文本关系信息融合器和关系文本信息融合器均由信息交互模块、残差模块、信息拼接模块组成;实体抽取器包括实体边界链接标签预测模块、标签解码模块;实体关系三元组抽取器包括实体关系链接标签预测模块、标签解码模块;步骤S4:将古汉语文本和由关系进行拼接构成的关系句子分别作为文本特征编码器和关系特征编码器的输入,得到古汉语文本的字嵌入特征向量和关系句子的字嵌入特征向量;文本特征编码器和关系特征编码器均由预训练好的BERT模型构成;步骤S5:将古汉语文本的字嵌入特征向量作为主体信息,关系句子的字嵌入特征向量作为辅助信息输入文本关系信息融合器中,得到文本特征表示;将关系句子的字嵌入特征向量作为主体信息,古汉语文本的字嵌入特征向量作为辅助信息输入关系文本信息融合器中,得到关系特征表示;步骤S6:将文本特征表示中的不同字嵌入特征向量进行拼接,得到文本特征拼接表示,将文本特征表示和关系特征表示进行拼接,得到关系特征拼接表示; 步骤S7:将文本特征拼接表示输入实体抽取器中,得到预测实体边界链接标签,并基于 预测实体边界链接标签对文本特征拼接表示进行解码得到实体头词和尾词的位置,对实体 头词和尾词进行拼接,构成古汉语实体集合,再通过交叉熵损失函数计算实体边界损失, 优化更新特征编码器和实体抽取器的模型参数; 步骤S8:将关系特征拼接表示输入实体关系三元组抽取器,得到初始三元组,再通过交 叉熵损失函数计算初始三元组损失,优化更新特征编码器和实体关系三元组抽取器的模 型参数; 步骤S9:将预测实体边界链接标签和初始三元组输入实体边界对齐模块中,基于古汉语实体集合对预测实体边界链接标签和初始三元组进行对齐,选出最终实体关系三元组。
全文数据:
权利要求:
百度查询: 江西师范大学 基于信息多步融合和边界对齐的古汉语实体关系抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。