首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种数字人文知识图谱的构建方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:同方知网数字出版技术股份有限公司

摘要:本发明公开了一种数字人文知识图谱的构建方法,包括:采用序列标注模型Bi‑LSTM+CRF算法对文本数据进行实体识别并构建实体词典;把通过Bi‑LSTM+CRF模型数据通过实体词典匹配的方式抽取语料中的实体,并设置语料的实体标志位;对语料进行分类,用以抽取不同的信息;采用Bi‑LSTM+CRF模型进行关系识别,并抽取实体的关系;采用Bi‑LSTM+CRF模型进行属性识别,并抽取实体的属性。本发明用于抽取信息的语料为古代相关文献,既能确保数字人文知识图谱的准确性,又能高效的排除噪声数据对信息抽取的干扰;该方法在信息抽取的规划中,兼顾准确率、召回率以及效率。

主权项:1.一种数字人文知识图谱的构建方法,其特征在于,所述方法包括:A采用序列标注模型Bi-LSTM+CRF算法对文本数据进行实体识别并构建实体词典;B把通过Bi-LSTM+CRF模型数据通过实体词典匹配的方式抽取语料中的实体,并设置语料的实体标志位;C对语料进行分类,用以抽取不同的信息;D采用Bi-LSTM+CRF模型进行关系识别,并抽取实体的关系;E采用Bi-LSTM+CRF模型进行属性识别,并抽取实体的属性;对所述语料分类包括:根据关系抽取和属性抽取的特点把语料分类,分成用于可用于关系抽取语料、可用于属性抽取的语料和无信息语料三类;以及根据语料的实体标志位给语料分类,关系识别中需要提供至少两个实体,去抽取两个实体的关系从而获得{实体1,关系,实体2}三元组,对应的属性抽取模型则必须包含至少一个实体;用Textcnn做baseline,提取语言中的信息特征,从而进一步分类语料,排除无信息含量的语料;具体步骤如下:1根据语料的实体标志位与语料含有实体的个数进行分类:含有一个及以上实体用于进行属性抽取,含有两个及以上实体用于关系抽取,不含实体语料则为噪声;2对关系识别和属性识别后的语料进行数据审核,训练一个二分类Textcnn模型,把含有关系或属性信息的语料分为一类,不包含关系和属性的语料分为一类。

全文数据:

权利要求:

百度查询: 同方知网数字出版技术股份有限公司 一种数字人文知识图谱的构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。