首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

混合提示学习与规则的领域命名实体识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:郑州大学

摘要:本发明公开了一种混合提示学习与规则的领域命名实体识别方法,以解决现有的领域命名实体识别需要批注数据量大、分类精确性不足的技术问题。本发明先将利用少样本标注数据集获取到规则模式集合,然后通过快速匹配算法DAAC_BM,对句子中的具有相同前后缀的未标记实例标记类别。然后筛选本体中的规则,将其作为提示信息来标注句子中不能通过规则模式匹配而获取类别的实体。它将前一个组件提出的标注实体类别作为输入,将本体中所有包含了及其关系的三元组提取出来。接下来,将所有的规则与输入句子转化为谓词逻辑形式并进行对比,提取其中可信度最高的规则作为提示信息,与句子一同交给预训练模型进行NER。把模型分类出的结果返回给第二部分,通过自监督训练模型。混合提示学习与规则,解决了中文领域命名实体识别中缺乏批注数据集、提示学习中模板需要手工构造以及提示模板过长的问题。

主权项:1.一种混合提示学习与规则的领域命名实体识别方法,其特征在于,包括以下步骤:S1:获取专业领域的文本训练集Dtrain,其中文本中实体批注标签;S2:相同前后缀未标注实体类别获取部分,在大量文本中使用BootStrapping算法获得每种类型中常见的实体并通过实体列表Ninitial记录,在训练第一轮次时,在Dtrain中查找与Ninitial包含实体部分或完全·匹配的部分,并对匹配的部分自动批注。经过第一轮后,模型在Dtrain上预测产生新的实体,将这些新的实体加入Ninitial中。之后每一轮训练中,根据上一轮更新后的Ninitial重新在Dtrain中匹配实体并自动批注,再根据模型预测更新Ninitial供下一轮使用;S3:结合Double-array和AC_BM算法提出DAAC_BM算法,S2中Dtrain匹配Ninitial中实体部分使用DAAC_BM算法通过Base和Check两个数组存储AC_BM算法中中文查找树的每个节点,base数组存储节点并利用存储的数组,并通过check数组判断节点父子关系,以代替过多分支存储子节点的中文查找树;S4:本体中的规则筛选部分,将将S2中的标注实体类别Ln作为输入,获取领域知识图谱,利用KMP算法将领域知识图谱中所有包含了Ln及其关系的三元组Reg提取出来,组成集合;S5:可信提示信息获取,获取到关于Ln的关系集合Reg后,将Reg转换为一阶谓词逻辑公式集合PredictReg,并对包含Ln的句子进行依存分析,转化为为谓词逻辑公式PredictSentence,利用余弦相识度选择高可信PredictReg并转化为普通句子形式,与输入句子一同输入到需要微调的预训练语言模型中进行命名实体识别;S6:在预训练语言模型微调参数时,利用Bootstrapping算法标注的实体集合EB中属于同类别的实体向量求和取均值作为该类别中心EC,通过模型标注的实体集合为YC,在目标函数中最小化具有相同实体类别的YC和EC的距离,增加不同实体类别的YC和EC的距离。

全文数据:

权利要求:

百度查询: 郑州大学 混合提示学习与规则的领域命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。