首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于度量学习的小样本命名实体识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:贵州师范大学

摘要:本申请的实施例提供一种基于度量学习的小样本命名实体识别方法。应用于人工智能技术领域,包括:获取语料数据分为训练集和测试集,根据训练集构建实体类型到实体的映射;将训练集划分为支持集和查询集,并分别构建实体引导掩码提示,得到支持集句子输入增强序列和查询集句子输入增强序列,并采用预训练语言模型进行编码处理,得到支持集token编码和查询集token编码;计算两种编码的相似度,并构造相似度矩阵得到相似度分数,根据相似度分数计算损失函数,得到训练后的预训练语言模型;将测试集划分为支持集和查询集,输入到预训练语言模型中进行处理,进行实体类型预测。以此方式,本申请能够有效提升在小样本条件下文本分类的准确性及可靠性。

主权项:1.一种基于度量学习的小样本命名实体识别方法,其特征在于,包括以下步骤:获取语料数据,构建语料数据训练集和测试集,根据所述训练集构建实体类型到实体的映射;将所述训练集划分为训练支持集和训练查询集,基于所述映射分别在所述训练支持集和所述训练查询集上构建实体引导掩码提示,得到训练支持集增强序列和训练查询集增强序列;其中,所述基于所述映射分别在所述训练支持集和所述训练查询集上构建实体引导掩码提示,得到训练支持集增强序列和训练查询集增强序列的过程为:所述训练支持集数据分别构建实体类型整合提示和类型实例指导提示,得到训练支持集实体类型整合提示增强序列和训练支持集类型实例指导提示增强序列,进而得到训练支持集增强序列;对所述训练查询集构建类型实例指导提示,得到训练查询集增强序列;其中,所述实体类型整合提示的构建过程为:获取所述训练支持集中的单词序列以及对应的标签序列,遍历所述标签序列得到非‘O’实体类型数据:所述非‘O’实体类型数据对应的单词标记为实体,并记录所述实体对应的实体类型,根据所述实体及所述实体类型构建得到末端提示字符串,将所述末端提示字符串拼接到所述单词序列的末端,得到初步增强序列;基于所述映射得到与所述实体类型相关频率最高的实体作为映射实体,根据所述实体类型及所述映射实体构建得到前端提示字符串,将所述前端提示字符串拼接到所述初步增强序列的前端,完成实体类型整合提示;其中,所述类型实例指导提示的构建过程为:识别所述映射中的全部实体类型以及对应最常关联的实体,并进行配对,形成提示前缀,将所述提示前缀拼接到单词序列的前端,完成类型实例指导提示;采用预训练语言模型对构建有实体引导掩码提示的所述训练支持集增强序列及所述训练查询集增强序列进行编码处理,得到训练支持集token编码和训练查询集token编码;其中,所述训练支持集token编码和所述训练查询集token编码的获取过程为:将所述训练支持集实体类型整合提示增强序列及所述训练支持集类型实例指导提示增强序列输入到所述模型中进行处理,得到训练支持集输出结果,采用掩码向量对所述训练支持集输出结果进行编码并进行加权处理得到训练支持集token编码;将所述训练查询集增强序列输入到所述模型中进行处理,得到训练查询集输出结果,采用掩码向量对所述训练查询集输出结果进行编码,得到训练查询集token编码;计算所述训练支持集token编码及所述训练查询集token编码的相似度,并构造相似度矩阵进行相似度分析,得到相似度分数,根据相似度分数计算损失函数,得到训练后的所述预训练语言模型;将所述测试集划分为测试支持集和测试查询集,将所述测试支持集和所述测试查询集数据输入到训练后的所述预训练语言模型中进行处理,进行实体类型预测。

全文数据:

权利要求:

百度查询: 贵州师范大学 一种基于度量学习的小样本命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。