首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种增强式知识图谱的生成方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深圳希施玛数据科技有限公司

摘要:本申请提供一种增强式知识图谱的生成方法及装置,方法包括:获取原始数据;对原始数据进行语法分析和语义分析,获得概念空间;对每个第一概念词进行义原分解,获得至少一个义原集合;基于逻辑关系对至少一个义原集合中的义原进行排序,获得义原空间;基于概念空间和义原空间构建原始知识图谱;获取参考数据库;基于行为数据生成第一概念词关系网络;基于至少一个数据主题的结构关系和至少一个数据主题的内容关系生成第二概念词关系网络;将第一概念词关系网络和第二概念词关系网络融合到原始知识图谱,得到增强式知识图谱。使得原始数据之间的关联度提高,知识图谱的完整性提高,从而能够在具体的检索应用中提供更多的检索词汇。

主权项:1.一种增强式知识图谱的生成方法,其特征在于,应用于服务器,所述方法包括:获取原始数据,所述原始数据为目标对象的内部专属数据和外部公开数据;对所述原始数据进行语法分析和语义分析,获得概念空间,所述概念空间包括至少一个第一概念词和逻辑关系,所述逻辑关系用于指示所述至少一个第一概念词之间的关联;对每个第一概念词进行义原分解,获得至少一个义原集合,单个义原集合包括至少一个义原,每个义原用于指示对应的第一概念词的最小语义单元;基于所述逻辑关系对所述至少一个义原集合中的义原进行排序,获得义原空间;对所述义原空间进行编码,确定每个第一概念词对应的第一义原向量;基于所述概念空间和所述义原空间构建原始知识图谱,所述原始知识图谱中的节点为所述至少一个第一概念词或所述至少一个义原集合中的义原;获取参考数据库,所述参考数据库为目标领域的数据库,所述参考数据库包括至少一个数据主题;基于行为数据生成第一概念词关系网络,所述行为数据用于表示所述目标对象基于所述至少一个数据主题的使用记录,所述第一概念词关系网络中的节点为所述行为数据对应的第二概念词;基于所述至少一个数据主题的结构关系和所述至少一个数据主题的内容关系生成第二概念词关系网络,所述第二概念词关系网络中的节点为所述数据主题对应的第三概念词;将所述第一概念词关系网络和所述第二概念词关系网络融合到所述原始知识图谱,得到增强式知识图谱,所述增强式知识图谱中的节点为基于所述原始知识图谱中的节点、所述第一概念词关系网络中的节点、以及所述第二概念词关系网络中的节点生成的第四概念词;其中,所述基于所述至少一个数据主题的结构关系和所述至少一个数据主题的内容关系生成第二概念词关系网络,包括:根据所述至少一个数据主题的结构关系确定第一概念词子关系网络,所述第一概念词子关系网络中的节点为所述第三概念词,所述第一概念词子关系网络中的边表示所述结构关系;根据所述至少一个数据主题的内容关系确定第二概念词子关系网络,所述第二概念词子关系网络中的节点为所述第三概念词,所述第二概念词子关系网络中的边表示所述内容关系;合并所述第一概念词子关系网络和所述第二概念词子关系网络,得到所述第二概念词关系网络;其中,所述根据所述至少一个数据主题的结构关系确定第一概念词子关系网络,包括:基于所述至少一个数据主题的结构关系确定至少一个第一关系,所述至少一个第一关系表示所述至少一个数据主题之间的层级关系;基于所述至少一个第一关系构建所述第一概念词子关系网络;其中,所述根据所述至少一个数据主题的内容关系确定第二概念词子关系网络,包括:采用自然语言处理对每个数据主题的文本信息进行语义分析,确定至少一个第二关系,所述至少一个第二关系表示所述至少一个数据主题之间的语义关系;基于所述至少一个第二关系构建所述第二概念词子关系网络;其中,所述合并所述第一概念词子关系网络和所述第二概念词子关系网络,得到所述第二概念词关系网络,包括:基于所述第一概念词子关系网络中的节点和所述第二概念词子关系网络中的节点进行合并,得到节点集合,所述节点集合包括共有节点和特有节点,所述共有节点为所述第一概念词子关系网络和所述第二概念词子关系网络都有的节点,所述特有节点为所述第一概念词子关系网络和所述第二概念词子关系网络中的一个关系网络包含的节点;基于第一权重和第二权重确定所述第二概念词关系网络中的边,所述第一权重用于反映所述第一概念词子关系网络中的边的重要性,所述第二权重用于反映所述第二概念词子关系网络中的边的重要性;基于所述共有节点、所述特有节点、以及所述第二概念词关系网络中的边构建所述第二概念词关系网络;其中,所述行为数据包括搜索数据和下载数据,所述基于行为数据生成第一概念词关系网络,包括:将所述搜索数据和所述下载数据进行匹配,确定至少一个关系对和对应的调用频次,每个关系对用于指示每个搜索数据与对应的下载数据之间的关联;对所述搜索数据进行关键词分词,获得至少一个关键词;根据所述至少一个关键词、所述至少一个关系对、以及调用频次,得到概念集,所述概念集中的第二概念词基于所述至少一个关键词扩充或修正;基于所述概念集确定所述第一概念词关系网络;其中,所述将所述第一概念词关系网络和所述第二概念词关系网络融合到所述原始知识图谱,得到增强式知识图谱,包括:将所述第一概念词关系网络中的第二概念词映射到所述义原空间,获得每个第二概念词对应的第二义原向量;将所述第二概念词关系网络中的第三概念词映射到所述义原空间,获得每个第三概念词对应的第三义原向量;计算每个第二义原向量和每个第三义原向量之间对应的第一夹角;若所述第一夹角小于第一阈值,合并所述第一夹角对应的第二概念词和第三概念词,获得第一合并概念词,所述第一合并概念词表示所述第二概念词的语义和所述第三概念词的语义;基于所述第一合并概念词、至少一个第二概念词、以及至少一个第三概念词生成目标概念词关系网络;将所述目标概念词关系网络中的目标概念词映射到所述义原空间,获得每个目标概念词对应的目标义原向量;计算每个目标义原向量和每个第一义原向量之间对应的第二夹角;若所述第二夹角小于第二阈值,合并所述第一概念词和所述目标概念词,获得第二合并概念词,所述第二合并概念词表示所述第一概念词的语义和所述目标概念词的语义;基于所述第二合并概念词、至少一个目标概念词、以及至少一个第一概念词生成所述增强式知识图谱。

全文数据:

权利要求:

百度查询: 深圳希施玛数据科技有限公司 一种增强式知识图谱的生成方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。