买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京中科凡语科技有限公司
摘要:本公开提供一种命名实体识别模型建立方法,其包括:获取目标领域的训练文本集;基于目标领域的领域特征构建命名实体种类集以及文本段落类别集;基于文本段落类别集以及命名实体种类集构建“文本段落类别‑命名实体种类”映射字典;使用“文本段落类别‑命名实体种类”映射字典对训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集,对每个训练文本的标注序列集进行修正,获得修正后的标注序列集;以及至少基于训练文本集的所有训练文本的修正后的标注序列集进行命名实体识别模型训练,获得命名实体识别模型。本公开还提供一种命名实体识别方法、实体识别模型建立装置、命名实体识别装置、电子设备及存储介质。
主权项:1.一种命名实体识别模型建立方法,其特征在于,包括:S1、获取目标领域的训练文本集;S2、基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集;S3、基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别-命名实体种类”映射字典;S4、使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集,对每个训练文本的标注序列集进行修正,获得修正后的标注序列集;以及S5、至少基于所述训练文本集的所有训练文本的修正后的标注序列集进行命名实体识别模型训练,获得命名实体识别模型;其中,步骤S4中,使用所述“文本段落类别-命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集,包括:S41、基于所述文本段落类别集以及所述训练文本集的每个所述训练文本的各个自然段落的段落特征对每个所述训练文本进行段落类别划分,获得每个所述训练文本的至少一个类别段落;S42、使用所述“文本段落类别-命名实体种类”映射字典确定所述训练文本集的每个所述训练文本的各个类别段落所对应的命名实体种类;以及S43、基于每个训练文本的各个类别段落所对应的命名实体种类,对各个类别段落进行标注,获得每个类别段落的标注序列,进而获得每个训练文本的标注序列集。
全文数据:
权利要求:
百度查询: 北京中科凡语科技有限公司 命名实体识别模型建立方法及命名实体识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。