买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:河海大学;华能澜沧江水电股份有限公司
摘要:本发明公开了一种面向水库群联合调度的小样本命名实体识别方法,通过实体跨度检测和实体类型分类两个阶段构建模型。在跨度检测阶段使用跨度边界矩阵,学习跨度边界信息并过滤潜在错误跨度,提高检测精度;在实体类型分类阶段,通过标签引导提高原型网络构建质量。在模型训练过程中,使用对比学习改进损失函数,通过反向传播更新参数,使相同类型实体的空间表示更加接近。完成实体原型构造后,利用距离函数计算样本与类别原型之间的距离,并将其转化为相似度概率对样本进行分类。本发明实现了水库群联合调度实体的自动提取,能够在样本较少的数据集中完成命名实体识别任务,具有较高的识别效果,极大节省了人工标记所需的人力物力与时间成本。
主权项:1.一种面向水库群联合调度的小样本命名实体识别方法,其特征在于,包括如下步骤:步骤1,将水库群联合调度规程句子序列构成的水库群联合调度数据集划分为支持集和查询集,使用预训练语言模型将句子序列转换为模型可处理的向量表示;步骤2,使用实体跨度检测和实体类型分类两个阶段构建小样本命名实体识别模型;在实体跨度检测阶段,构造跨度边界矩阵,将预训练语言模型的输出转换为适合实体边界检测的形式;设计跨度过滤策略,对实体跨度检测阶段输出的跨度集过滤其中潜在的错误跨度,得到候选跨度集,作为实体分类阶段的输入;通过跨度边界矩阵枚举每个跨度示例的向量表示,计算模型预测的实体类别标签与实际标签之间的差异,得到基于跨度的损失函数;步骤3,在实体类型分类阶段,对候选跨度集中每个跨度类别计算样本的均值向量作为原型,构建原型网络,所述样本指的是在训练集中属于某个实体类别的所有跨度的语义表示;步骤4,对于查询集中给定的水库群联合调度规程句子序列样本,通过步骤2提取实体跨度,并将实体跨度与步骤3构建的原型网络进行相似度计算,得到它们之间的距离,再将该距离转换为概率,选择与样本相似度概率最高的原型作为实体识别的预测结果;在实体类型分类阶段,对候选跨度集中每个跨度类别计算样本的均值向量作为原型,构建原型网络,使用所述原型作为分类器,对跨度检测阶段的实体跨度进行分类,使用对比学习构造对比损失函数,通过计算不同类别的样本在特征空间中的距离来衡量样本之间的差异,具体步骤如下:在类型分类阶段,训练原型网络,使用标签提示增强的原型网络进行类型分类,并使用基于跨度的损失函数;通过使用支持集句子中的标签信息和提示信息,构建支持集中实体的原型;然后,通过计算查询集样本与所有原型之间的距离函数来表示每个样本与每个类别标签之间的相似性,实体类型分类阶段使用原型网络构建原型,生成具有特定语义特征的类原型;最后,使用softmax函数将相似性转换为概率输出,并使用交叉熵函数计算分类损失,输出具有最高概率的标签序列;过程如下:(3.1)首先,计算从第i个词到第j个词之间涉及词语的所有语义信息表示: ,其中,hk为第i个词到第j个词之间涉及词语的向量表示;设表示给定支持集S中包含的候选跨度集,计算Sk内的每个跨度类别的均值向量,用于表示每个实体类ck的原型: ,其中,为从第i个词到第j个词之间涉及词语的所有语义信息表示,|Sk|是支持集中所有被标记为第k类的实体跨度的集合,实体类ck的原型表示为所有第k类实体跨度的语义表示的平均值;通过计算所有属于第k类的实体跨度的语义表示的平均值,得到第k类的原型表示;(3.2)使用对比学习构造对比损失函数,计算BERT编码器提取的水库群联合调度规程句子序列样本与其标签上下文向量h1,h2;通过对比学习的损失函数,区分语义空间中不同类别的实体表示;用于原型网络的对比损失函数定义为: ,其中,为第i个类别的实体集合,这里的计算了样本,之间相似性的指数值,log是自然对数函数。
全文数据:
权利要求:
百度查询: 河海大学 华能澜沧江水电股份有限公司 面向水库群联合调度的小样本命名实体识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。