首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

实体识别语料的标注方法、系统、装置及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:平安科技(深圳)有限公司

摘要:本发明涉及语义解析技术领域,提出一种实体识别语料的半自动化标注方法、系统、装置及存储介质,其中的方法包括获取模型训练数据,基于所述模型训练数据训练实体识别模型;同时,获取识别工具,并设定识别规则;将待识别的语料分别输入训练完成的实体识别模型、识别工具和识别规则中进行实体识别,并获取对应的识别结果;将所述实体识别模型、识别工具和识别规则的识别结果两两分组,并将每组中的两个识别结果做并集处理,获取对应的并集结果;对各并集结果做交集处理,获取所述待识别的语料的最终识别结果。本发明能够提高文本识别标注的准确率,大大降低人工标注的工作量。

主权项:1.一种实体识别语料的半自动化标注方法,应用于电子装置,其特征在于,所述方法包括:获取模型训练数据,基于所述模型训练数据训练实体识别模型;同时,获取识别工具,并设定识别规则;将待识别的语料分别输入训练完成的实体识别模型、识别工具和识别规则中进行实体识别,并获取对应的识别结果;将所述实体识别模型、识别工具和识别规则的识别结果两两分组,并将每组中的两个识别结果做并集处理,获取对应的并集结果;对各并集结果做交集处理,获取所述待识别的语料的最终识别结果;其中,所述将每组中的两个识别结果做并集处理,获取对应的并集结果的步骤包括:当所述识别规则和识别工具的识别结果为一组、或所述识别规则和所述实体识别模型的识别结果为一组时,将所述识别规则的识别结果和所述识别工具识别的结果或所述实体识别模型的识别结果做并集处理的步骤包括:获取所述识别规则和所述实体识别模型或所述识别工具对同一语料的识别结果和识别准确率,根据所述识别准确率的大小对两个识别准确率进行排序;构建一个空集,并将与最小识别准确率对应的识别结果加入所述空集中,形成初步集合;将与最大识别准确率对应的识别结果逐个加入所述初步集合中,以得出所述识别规则和识别工具或所述识别规则和所述实体识别模型的识别结果的并集结果;其中,所述将与最大识别准确率对应的识别结果逐个加入所述初步集合中的步骤包括:如果新加入的识别结果与所述初步集合中的识别结果不冲突,则将新加入的识别结果与所述初步集合中的识别结果取并集处理;如果新加入的识别结果与所述初步集合中的识别结果相冲突,则判断新加入的识别结果与所述初步集合中的识别结果是否存在包含关系,当存在包含关系时,保留长度较长的识别结果;如果不存在包含关系,则判断新加入的识别结果与所述初步集合中的识别结果是否存在交叉关系,如果存在交叉关系,则保留所述识别规则的识别结果。

全文数据:

权利要求:

百度查询: 平安科技(深圳)有限公司 实体识别语料的标注方法、系统、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。