首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于领域规则的半监督命名实体识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:太原理工大学

摘要:本发明属于信息抽取技术领域,具体是一种基于领域规则的半监督命名实体识别方法。解决了现有技术识别精度不高、模型收敛速度慢的问题,包括S1从不同领域的语料中提取领域特征词;S2从少量标注数据中构建领域特征词与实体的共现关系;S3对所有共现关系进行关联分析,将关联度高的共现关系转换为相应的规则构成规则库;S4利用未标注数据生成实体候选集和规则候选集;S5利用规则库中的规则对实体候选集在其出现的句子中进行规则匹配;S6对伪标签集合进行选择;S7:利用伪标签训练集对神经网络模型进行一轮训练;S8:得到训练好的模型;S9:使用训练好的模型对验证集进行实体识别,得到实体识别结果。

主权项:1.一种基于领域规则的半监督命名实体识别方法,其特征在于,包括:S1:从不同领域的语料中提取领域特征词;所述领域特征词为目标领域中的常用词;S2:从少量标注数据中构建领域特征词与实体的共现关系;所述共现关系包括实体、领域特征词与共现方式;S3:对所有共现关系进行关联分析,将关联度高的共现关系转换为相应的规则构成规则库;S4:利用未标注数据集生成实体候选集和规则候选集;所述未标注数据可以来自公开数据集,也可以由目标领域的语料直接转化而来;所述实体候选集包括可能在未标注数据集中出现的所有实体;所述规则候选集包括可能在未标注数据集中出现的所有规则;S5:利用规则库中的规则对实体候选集在其出现的句子中进行规则匹配,得到未标注实体的伪标签集合;所述伪标签集合包括与规则库中任一规则所匹配的实体及其类型;S6:对伪标签集合进行选择,保留准确率高于阈值的伪标签作为伪标签训练集;S7:利用伪标签训练集对神经网络模型进行一轮训练;S8:当模型训练轮次未达到要求,则对规则候选集中的规则进行打分并选择出得分较高的规则加入规则库,并返回S5进行下一轮训练;若训练轮次达到要求,则结束训练,得到训练好的模型;S9:使用训练好的模型对验证集进行实体识别,得到实体识别结果。

全文数据:

权利要求:

百度查询: 太原理工大学 一种基于领域规则的半监督命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术