首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于实体长度查询进行命名实体识别的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广西师范大学

摘要:本发明公开了一种基于实体长度查询进行命名实体识别的方法,包括如下步骤:1)任务定义;2)通过实体长度构建查询;3)数据集构建;4)模型结构。这种方法能同时提取平面和嵌套实体,并且对于相同类型的嵌套实体同样有效,在实体类型数量大时,提取准确性和效率高。

主权项:1.基于实体长度查询进行命名实体识别的方法,其特征在于,包括如下步骤:1任务定义:给定一个序列C={c1,c2,...,cn}和预定义的实体类型集合T={t1,t2,...,tk},根据BIO标记方案,得到标签集合G={O,B-t1,I-t1,...,B-tk,I-tk},在BIO标记方案中,输入序列C中的每个词都被标记为B、I或O,其中O表示与任何实体无关的标记,B表示实体的开始,I表示实体的中间部分,ti∈T是实体类型,这种标记方案能帮助模型准确地识别出实体的边界,并指示每个词在实体中的位置,提高NER任务的性能;2通过实体长度构建查询:使用注释指南作为参考来构建查询,注释指南是数据集构建者提供给数据集注释者的一种方案,具体指数据构建者人为的为文本中的实体数据书写注释,通过注释指南生成的查询是对标签类别的描述,通过注释指南生成的查询能以通用和精确的方式对文本中的实体内容描述,以便人工注释者在对任何文本中的概念或提及进行注释时不会遇到歧义;从而将嵌套实体的提取转化为在不同长度上提取平面实体,有效解决相同类型的嵌套实体问题以及由大量实体类型导致的效率问题,假设需要从序列中提取由三个词组成的实体,则使用模板“文本中由三个词组成的实体有哪些”作为需要构建的查询;3数据集构建:NER任务的数据集是文本及其对应实体的集合,首先,确定L为实体的最大跨度长度,若一个跨度超过了该长度,将不考虑提取的文本内容作为实体,然后,对于集合D={1,2,...,dmax}中的每个长度,构建一个查询并形成一个三元组集合[Querydi,Context,Entitiesdi],其中di表示实体长度;4模型结构:4.1编码器:使用BERT作为模型,对于每个实体长度小于dmax,文本与相应的查询连接起来作为模型的输入,给定查询Q={q1,q2,.....,qm}和上下文C={c1,c2,…,cn},模型的输入表示为X={CLS,q1,q2,…,qm,SEP,c1,c2,……,cn,SEP},那么,X将被编码为BERT转化为嵌入向量E={e1,e2,……,en}并包含上下文信息,如下:E=BERTX,其中E∈Rn×d,d是BERT的嵌入维度;4.2解码器:带有条件随机场的序列标注,条件随机场是马尔可夫随机场的一种变体,在NER任务中通过考虑相邻标签的信息提供了显著的优势,而嵌套实体被转化为不同跨度长度的平面实体进行识别,因此,采用条件随机场作为模型的解码器,首先,通过一个全连接网络将E传递,如下所示:H=WE+b,其中H∈Rn×|L|,W∈Rd×|L|,|L|是标签集的大小,接下来,对于观察到的序列H={h1,h2,...,hn},使用线性链CRF计算y的分布,如下所示: 其中Sh,y表示序列y的分数,Sh,y由状态得分Ayi,yi+1和转移得分Pi,yi组成,py|h是给定h时标签序列y的概率,在训练过程中,通过最小化标签概率分布的负对数似然函数来最大化真实标签的概率,如下所示: 其中LCRF是模型的损失,在测试过程中,使用维特比算法解码具有最大分数的序列路径,将这些通过维特比算法解码得到的序列路径标记映射回输入文本的位置,从而识别出文本中的实体,根据标记的类型和位置信息,确定每个实体的起始位置和结束位置,从而提取出识别出的实体。

全文数据:

权利要求:

百度查询: 广西师范大学 基于实体长度查询进行命名实体识别的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。