首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种开放性知识图谱挖掘方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广州数说故事信息科技有限公司

摘要:本发明公开了一种开放性知识图谱挖掘方法及系统,方法包括:输入待分析的自然语言文本;从自然语言文本提取出与分析对象相关的命名实体,得到实体列表;对所述实体列表进行开放域关系抽取,当实体在文本中作主语时,提取出相关的谓语和宾语,当实体在文本中作宾语时,提取出相关的主语和谓语,得到第一知识三元组;对所述实体列表进行限定域关系抽取,提取出具有指定关系的实体对,得到第二知识三元组;将第一知识三元组和第二知识三元组进行知识融合将融合后的结果存储到图数据库中,得到知识图谱。本发明对实体列表信息抽取更全面,同时提高了知识准确率和召回率。

主权项:1.一种开放性知识图谱挖掘方法,其特征在于,包括以下步骤:输入待分析的自然语言文本;从自然语言文本提取出与分析对象相关的命名实体,得到实体列表;对所述实体列表进行开放域关系抽取,当实体在文本中作主语时,提取出相关的谓语和宾语,当实体在文本中作宾语时,提取出相关的主语和谓语,得到第一知识三元组;对所述实体列表进行限定域关系抽取,提取出具有指定关系的实体对,得到第二知识三元组;将第一知识三元组和第二知识三元组进行知识融合;将第一知识三元组和第二知识三元组进行知识融合的具体过程为:先进行实体融合,将实体进行存储,再进行关系融合,将关系进行存储,最后以实体的关系的置信度计算实体的置信度;在实体融合中,第一知识三元组和第二知识三元组的主语和宾语均为实体融合的对象,当某个知识三元组中,主语或宾语的实体类型为其他时,遍历实体列表中的实体,统计实体名称与主语或宾语相同的实体的实体类型,取出现次数最多的实体类型,作为主语或宾语的实体类型;在实体融合中同一实体存在多种写法,需将实体名称作繁简转换、大小写转换完成后,对实体进行存储;在关系融合中,需同时对第一知识三元组和第二知识三元组进行融合,具体关系融合的步骤为:对开放域关系抽取结果中的谓语作归一化,开放域关系抽取中,表达同一意思的谓语可能存在多种表达方式,需将不同的表达方式以相对正规的写法代替;遍历谓语归一化之后的知识三元组,统计知识三元组一致出现的个数,即主语、谓语、宾语均一致出现个数及其最大置信度,其中,将限定域关系抽取的知识三元组中的指定关系名称看作是谓语;根据一致的知识三元组出现个数及其最大置信度,计算关系的置信度;对关系进行存储;将融合后的结果存储到图数据库中,得到知识图谱。

全文数据:

权利要求:

百度查询: 广州数说故事信息科技有限公司 一种开放性知识图谱挖掘方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。