买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:华润数字科技有限公司
摘要:本申请实施例提供了一种命名实体识别方法和装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取具有字符标签和样本类别标签的样本文本;将样本文本输入至预设的原始实体识别模型;根据初始编码层对样本字符进行编码,得到字符向量;根据初始位置识别层对字符向量进行位置识别,得到初始位置标签;根据初始实体识别层对样本文本进行命名实体识别,得到识别实体和识别实体的初始识别类别标签;根据初始识别类别标签、初始位置标签、字符标签、样本类别标签对原始实体识别模型进行参数调整,得到目标实体识别模型;根据目标实体识别模型对获取的待识别文本进行命名实体识别。本申请实施例能够提高实体识别的准确度。
主权项:1.一种命名实体识别方法,其特征在于,所述方法包括:获取具有字符标签和样本类别标签的样本文本;其中,所述样本文本包括样本字符和样本实体,所述字符标签用于表示所述样本字符的字符类别,所述字符类别包括以下至少一种:首字符类、尾字符类、中间字符类、过渡字符类、非实体类;所述样本类别标签用于表示所述样本实体的实体类别,所述实体类别包括以下任一种:扁平类、嵌套类、非连续类;其中,所述样本文本还包括样本非实体;将所述样本文本输入至预设的原始实体识别模型;其中,所述原始实体识别模型包括初始编码层、初始位置识别层、初始实体识别层;根据所述初始编码层对所述样本字符进行编码,得到字符向量;根据所述初始位置识别层对所述字符向量进行位置识别,得到初始位置标签;其中,所述初始位置标签用于表示所述样本字符的字符类别;所述初始位置识别层包括第一分类器、第二分类器、第三分类器、第四分类器和第五分类器,其中,所述根据所述初始位置识别层对所述字符向量进行位置识别,得到初始位置标签,包括:根据所述第一分类器对所述字符向量进行首字符位置识别,得到第一识别结果;根据所述第二分类器对所述字符向量进行尾字符位置识别,得到第二识别结果;根据所述第三分类器对所述字符向量进行中间字符位置识别,得到第三识别结果;根据所述第四分类器对所述字符向量进行过渡字符位置识别,得到第四识别结果;根据所述第五分类器对所述字符向量进行非实体位置识别,得到第五识别结果;根据所述第一识别结果、所述第二识别结果、所述第三识别结果、所述第四识别结果、所述第五识别结果得到所述初始位置标签;根据所述初始实体识别层对所述样本文本进行命名实体识别,得到识别实体和所述识别实体的初始识别类别标签;其中,所述初始识别类别标签用于表示所述识别实体的实体类别;根据所述初始识别类别标签、所述初始位置标签、所述字符标签、所述样本类别标签对所述原始实体识别模型进行参数调整,得到目标实体识别模型,包括:根据所述样本实体和所述样本非实体得到对比损失数据;根据所述初始位置标签和所述字符标签得到位置损失数据;根据所述初始识别类别标签和所述样本类别标签得到类别损失数据;根据所述对比损失数据、所述位置损失数据、所述类别损失数据对所述原始实体识别模型进行参数调整,得到所述目标实体识别模型;其中,所述根据所述样本实体和所述样本非实体得到对比损失数据,具体包括:对所述样本实体进行组合,得到实体对数据;根据所述实体对数据得到第一向量数据,包括和;根据所述样本非实体进行均值处理得到第二向量数据Neg=[q1...qk];根据所述第一向量数据和所述第二向量数据得到对比损失数据: 其中,超参数T是一个温度系数,用于控制所述原始实体识别模型对所述样本非实体和所述实体对数据的关注程度;W′矩阵用于将所述第二向量数据映射到另一个空间中进行比对;其中,所述根据所述初始位置标签和所述字符标签得到位置损失数据,包括: 其中,表示第z个分类器的参数矩阵,表示字符向量,表示第z个分类器输出的识别结果,表示所述字符标签,CR表示交叉熵损失函数,表示所述位置损失数据;其中,所述根据所述初始识别类别标签和所述样本类别标签得到类别损失数据,包括: 其中,表示所述样本类别标签,L表示所述样本实体的数量,表示所述类别损失数据;根据所述目标实体识别模型对获取的待识别文本进行命名实体识别。
全文数据:
权利要求:
百度查询: 华润数字科技有限公司 命名实体识别方法和装置、电子设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。