基于实体长度查询进行命名实体识别的方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：广西师范大学

摘要：本发明公开了一种基于实体长度查询进行命名实体识别的方法，包括如下步骤：1）任务定义；2）通过实体长度构建查询；3）数据集构建；4）模型结构。这种方法能同时提取平面和嵌套实体，并且对于相同类型的嵌套实体同样有效，在实体类型数量大时，提取准确性和效率高。

主权项：1.基于实体长度查询进行命名实体识别的方法，其特征在于，包括如下步骤：1任务定义：给定一个序列C＝{c1,c2,...,cn}和预定义的实体类型集合T＝{t1,t2,...,tk}，根据BIO标记方案，得到标签集合G＝{O,B-t1,I-t1,...,B-tk,I-tk}，在BIO标记方案中，输入序列C中的每个词都被标记为B、I或O，其中O表示与任何实体无关的标记，B表示实体的开始，I表示实体的中间部分，ti∈T是实体类型，这种标记方案能帮助模型准确地识别出实体的边界，并指示每个词在实体中的位置，提高NER任务的性能；2通过实体长度构建查询：使用注释指南作为参考来构建查询，注释指南是数据集构建者提供给数据集注释者的一种方案，具体指数据构建者人为的为文本中的实体数据书写注释，通过注释指南生成的查询是对标签类别的描述，通过注释指南生成的查询能以通用和精确的方式对文本中的实体内容描述，以便人工注释者在对任何文本中的概念或提及进行注释时不会遇到歧义；从而将嵌套实体的提取转化为在不同长度上提取平面实体，有效解决相同类型的嵌套实体问题以及由大量实体类型导致的效率问题，假设需要从序列中提取由三个词组成的实体，则使用模板“文本中由三个词组成的实体有哪些”作为需要构建的查询；3数据集构建：NER任务的数据集是文本及其对应实体的集合，首先，确定L为实体的最大跨度长度，若一个跨度超过了该长度，将不考虑提取的文本内容作为实体，然后，对于集合D＝{1,2,...,dmax}中的每个长度，构建一个查询并形成一个三元组集合[Querydi,Context,Entitiesdi]，其中di表示实体长度；4模型结构：4.1编码器：使用BERT作为模型，对于每个实体长度小于dmax，文本与相应的查询连接起来作为模型的输入，给定查询Q＝{q1,q2,.....,qm}和上下文C＝{c1,c2,…,cn}，模型的输入表示为X＝{CLS,q1,q2,…，qm，SEP，c1，c2，……，cn，SEP}，那么，X将被编码为BERT转化为嵌入向量E＝{e1,e2,……,en}并包含上下文信息，如下：E＝BERTX,其中E∈Rn×d，d是BERT的嵌入维度；4.2解码器：带有条件随机场的序列标注，条件随机场是马尔可夫随机场的一种变体，在NER任务中通过考虑相邻标签的信息提供了显著的优势，而嵌套实体被转化为不同跨度长度的平面实体进行识别，因此，采用条件随机场作为模型的解码器，首先，通过一个全连接网络将E传递，如下所示：H＝WE+b，其中H∈Rn×|L|，W∈Rd×|L|，|L|是标签集的大小，接下来，对于观察到的序列H＝{h1,h2,...,hn}，使用线性链CRF计算y的分布，如下所示：其中Sh,y表示序列y的分数，Sh,y由状态得分Ayi,yi+1和转移得分Pi,yi组成，py|h是给定h时标签序列y的概率，在训练过程中，通过最小化标签概率分布的负对数似然函数来最大化真实标签的概率，如下所示：其中LCRF是模型的损失，在测试过程中，使用维特比算法解码具有最大分数的序列路径，将这些通过维特比算法解码得到的序列路径标记映射回输入文本的位置，从而识别出文本中的实体，根据标记的类型和位置信息，确定每个实体的起始位置和结束位置，从而提取出识别出的实体。

全文数据：

权利要求：

百度查询：广西师范大学基于实体长度查询进行命名实体识别的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种盾构壁后注浆浆液及其制备方法

下一篇：一种采空区储、净矿井水的方法

相关技术

一种盾构壁后注浆浆液及其制备方法

一种采空区储、净矿井水的方法

一种惯性传感器探头装置及多自由度检测方法

一种生物质燃料防结焦气化燃烧炉

一种烟叶分拣定级用的翻转分料装置及方法

一种重型机械龙门自动焊接装置

柔性石墨烯霍尔传感器及其制备方法

一种高效的柔性钙钛矿太阳能电池封装方法

一种基于三嗪共价有机框架材料的制备及用途

天然气发动机配气相位控制方法和天然气发动机

一种高速机械磨削主轴加工装置

一种Z型气动吸附的执行器结构

命名相关技术

文档命名实体识别的处理方法、装置及电子设备_中国工商银行股份有限公司_202410682730.8

一种用于命名实体识别的模型训练方法和装置_新智数字科技有限公司_202011360724.9

一种样式变量命名与映射方法及装置_北京创作美好科技有限公司_202410775080.1

电力标准命名实体识别方法_西安交通大学_202410759660.1

一种基于调度命名规范的电气接线图自动构建方法_国网浙江省电力有限公司宁波供电公司_202410536114.1

基于混合多原型的小样本命名实体识别方法_中国人民解放军国防科技大学_202210269420.4

基于神经网络的多信息融合命名实体识别方法_天津大学_202210450668.0

电力变压器故障命名实体识别方法及相关设备_北京中电普华信息技术有限公司_202410646965.1

一种用于中文医疗嵌套命名的实体识别方法_重庆邮电大学_202410332692.3

一种基于边界检测的中文命名实体识别方法_安徽理工大学_202210532724.5

实体相关技术

在共享环境中保障物理实体的资源_罗伯特·博世有限公司_202080014011.9

一种基于预训练语言模型的实体关系抽取方法及装置_清华大学_202210161990.1

一种网络实体的任务活动代价评估方法_安世亚太科技股份有限公司_202211562735.4

多特征语义融合的联合实体关系抽取方法、装置及介质_成都信息工程大学_202410810751.3

一种PDCP实体的接收窗口的配置方法及其装置_北京小米移动软件有限公司_202180000755.X

实体模型消隐方法、装置、电子设备及存储介质_广东三维家信息科技有限公司_202110937466.4

命名实体识别方法和装置、电子设备及存储介质_华润数字科技有限公司_202310330086.3

通过组合疗法治疗实体或淋巴肿瘤的方法_永恒生物科技股份有限公司_201680061031.5

一种实体链的处理方法、装置、设备及介质_浙江有数数智科技有限公司_202411083797.6

一种基于任务的网络实体时延评估方法_安世亚太科技股份有限公司_202211562949.1

进行相关技术

由心脏起搏设备进行的起搏治疗的递送_美敦力公司_201980016346.1

一种可以进行样品旋转的水浴装置_山东简易达电子科技有限公司_202420165169.1

一种便于进行散热的互感器_大连新安越电力设备有限公司_202411090088.0

防护棚架及对防护棚架进行拆除的方法_中铁第五勘察设计院集团有限公司_202011299711.5

对正极活性材料进行修复的方法及其用途_当升科技(常州)新材料有限公司_202410707177.9

一种便于进行固定的焊接装置_合肥昵坦鼓环保科技有限公司_202323186719.2

通过动态选择投影角度进行物品检查_德尔塔瑞私人有限公司_201980041954.8

基于显著性检测进行字幕定位_英特尔公司_202311774122.1

使用基于CHEMFET传感器阵列的系统进行细胞分析_生命科技公司_201980059143.0

单宁酸偶联纳米氧化石墨烯进行碳纤维的表面改性方法_陕西科技大学_202410679618.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于实体长度查询进行命名实体识别的方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务