买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海工程技术大学
摘要:一种融合多维度多信息的实体对齐方法,包括以下步骤:将两个异构知识图谱同时作为输入;根据邻域结点对中心结点的重要程度实现下采样;将实体作为中心结点利用图卷积网络获得的嵌入表示同实现下采样后包含重要邻居信息的表示融合;通过余弦相似度计算源实体与区域内的这些目标实体的相似度,加权求和相似矩阵、、和,得到最终跨图的实体对齐得分表。本发明的方法结合结果层和表示层的实体相似度,实现了利用多维度结果加权拼接的方式解决实体对齐问题。本发明的方法融合实体的多方面信息,即实体名称、属性和实体描述,分别从语义级、词语级、句子级定义实体相似度度量方法,有效判别实体是否对齐。
主权项:1.一种融合多维度多信息的实体对齐方法,其特征在于,包括以下步骤:步骤1,将两个异构知识图谱同时作为输入,使用平均词向量初始化的多层图卷积网络,捕获包含语义信息和拓扑信息的实体结点初始嵌入表示;步骤2,在步骤1的基础上根据邻域结点对中心结点的重要程度实现下采样,认为对于中心结点而言,邻域结点在上下文出现频率越高对中心结点贡献度越高;步骤3,将实体作为中心结点利用图卷积网络获得的嵌入表示同实现下采样后包含重要邻居信息的表示融合;步骤4,为了保证匹配的可靠性并减小计算成本的同时,为每个源实体选择可能的候选匹配域,基于前面步骤获得的实体向量表示,通过余弦相似度计算源实体ei与区域内的这些目标实体的相似度,取候选域中最大值的目标实体向量表示,则得到表示层相似矩阵Mz,该矩阵为稀疏矩阵,其中矩阵的行表示源实体,列表示目标实体,矩阵的数值表示相似度大小;步骤5,对于实现语义级分析,采用BERT实预训练实体名称得到词向量,根据词向量计算得到实体语义名称向量,从而计算得到源实体和目标实体两两之间的余弦相似度矩阵Ms;步骤6,考虑到操作上的简便,选用Levenshtein距离衡量两个实体名称的字符级相似度,相似矩阵表示为Ml;步骤7,利用实体描述从句子级判别实体的相似程度;选用Sentence-Transformer实预训练模型,并针对句子定位词语任务训练,利用步骤3中获得的候选匹配域计算获得体描述的句子级相似度矩阵表示,此处矩阵为稀疏矩阵,表示为Mt;步骤8,加权求和步骤4、5、6和7中获得的相似矩阵Mz、Ms、Ml和Mt,得到最终跨图的实体对齐得分表;步骤3中将实体作为中心结点利用图卷积网络获得的嵌入表示同实现下采样后包含重要邻居信息的表示融合,计算方式如下: 其中,为融合邻域信息后实体ei的向量表示,hi为多层图卷积编码得到的实体ei初始向量,gi为实体ei的下采样邻域结点融合表示,为激活函数,Wg和WN均为可学习的权重矩阵,Ns是为源实体ei构建的大小为s的候选域,hp为该候选域中任一实体p的向量表示,操作符||表示矩阵拼接;融合结构信息、语义信息以及点下采样的邻居结点表示,得到表示层结果;对于中心结点而言,邻域结点在上下文出现频率越高对中心结点贡献度越高,根据邻域结点对中心结点的重要程度实现下采样,计算方式如下: 其中,Ni表示中心实体ei一阶邻居结点集合,hi和hi_j分别是实体ei和ei_j的向量表示,ei_j代表实体ei一阶邻居结点集合中的第j个,Ws为共享权重;在实现跨图谱实体对齐时,为每个源实体选择可能的候选匹配域,计算出源实体ei与区域内的这些目标实体的相似度,候选匹配域确定的公式如下: 其中,E2表示目标KG,hj表示E2中实体ej的向量表示,hi表示源实体ei的向量表示,|.|L1表示计算L1范式距离。
全文数据:
权利要求:
百度查询: 上海工程技术大学 一种融合多维度多信息的实体对齐方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。