一种数字人文知识图谱的构建方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：同方知网数字出版技术股份有限公司

摘要：本发明公开了一种数字人文知识图谱的构建方法，包括：采用序列标注模型Bi‑LSTM+CRF算法对文本数据进行实体识别并构建实体词典；把通过Bi‑LSTM+CRF模型数据通过实体词典匹配的方式抽取语料中的实体，并设置语料的实体标志位；对语料进行分类，用以抽取不同的信息；采用Bi‑LSTM+CRF模型进行关系识别，并抽取实体的关系；采用Bi‑LSTM+CRF模型进行属性识别，并抽取实体的属性。本发明用于抽取信息的语料为古代相关文献，既能确保数字人文知识图谱的准确性，又能高效的排除噪声数据对信息抽取的干扰；该方法在信息抽取的规划中，兼顾准确率、召回率以及效率。

主权项：1.一种数字人文知识图谱的构建方法，其特征在于，所述方法包括：A采用序列标注模型Bi-LSTM+CRF算法对文本数据进行实体识别并构建实体词典；B把通过Bi-LSTM+CRF模型数据通过实体词典匹配的方式抽取语料中的实体，并设置语料的实体标志位；C对语料进行分类，用以抽取不同的信息；D采用Bi-LSTM+CRF模型进行关系识别，并抽取实体的关系；E采用Bi-LSTM+CRF模型进行属性识别，并抽取实体的属性；对所述语料分类包括：根据关系抽取和属性抽取的特点把语料分类，分成用于可用于关系抽取语料、可用于属性抽取的语料和无信息语料三类；以及根据语料的实体标志位给语料分类，关系识别中需要提供至少两个实体，去抽取两个实体的关系从而获得{实体1，关系，实体2}三元组，对应的属性抽取模型则必须包含至少一个实体；用Textcnn做baseline，提取语言中的信息特征，从而进一步分类语料，排除无信息含量的语料；具体步骤如下：1根据语料的实体标志位与语料含有实体的个数进行分类：含有一个及以上实体用于进行属性抽取，含有两个及以上实体用于关系抽取，不含实体语料则为噪声；2对关系识别和属性识别后的语料进行数据审核，训练一个二分类Textcnn模型，把含有关系或属性信息的语料分为一类，不包含关系和属性的语料分为一类。

全文数据：

权利要求：

百度查询：同方知网数字出版技术股份有限公司一种数字人文知识图谱的构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种接地线缆开关状态检测装置和检测方法

下一篇：一种用于塑胶原料生产加工的除味装置

相关技术

一种接地线缆开关状态检测装置和检测方法

一种用于塑胶原料生产加工的除味装置

一种Z型气动吸附的执行器结构

电池单体、储能设备及用电装置

一种整车软件管理系统及方法

一种高效的柔性钙钛矿太阳能电池封装方法

钢制防火门的焊接装置

一种1,2,3-三氮唑-4-甲酸乙酯的合成方法

写请求的处理方法、装置、设备和介质

通信方法、装置、存储介质及程序产品

一种批量热浸镀锌铝镁浸镀前两步式活化助镀处理方法

一种盾构壁后注浆浆液及其制备方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种数字人文知识图谱的构建方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务