买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京国双科技有限公司
摘要:本发明公开了一种人名消歧的方法及装置,涉及数据处理技术领域,为了解决现有技术中当据库中未记录有第一人物实体的属性数据时,无法通过计算第一人物实体的属性数据与第二人物实体的属性数据之间的相识度值,来确定这两个人物实体是否为同一人物实体的问题。本发明的方法包括:获取第一人物实体的相关实体对应的第一属性数据以及第二人物实体的相关实体对应的第二属性数据,所述第一人物实体与所述第二人物实体为姓名相同的人物实体;根据所述第一属性数据和所述第二属性数据确定所述第一人物实体与所述第二人物实体是否为同一人物实体。本发明适用于对姓名相同的两个人物实体进行人名消歧处理的过程中。
主权项:1.一种人名消歧的方法,其特征在于,包括:获取第一人物实体的相关实体对应的第一属性数据以及第二人物实体的相关实体对应的第二属性数据,所述第一人物实体与所述第二人物实体为姓名相同的人物实体;根据所述第一属性数据和所述第二属性数据确定所述第一人物实体与所述第二人物实体是否为同一人物实体;当获取得到的所述第一属性数据为所述第一人物实体对应的多个第一同事姓名,获取得到的所述第二属性数据为所述第二人物实体对应的多个第二同事姓名,且所述第二人物实体为多个时;所述根据所述第一属性数据和所述第二属性数据确定所述第一人物实体与所述第二人物实体是否为同一人物实体,包括:根据多个所述第一同事姓名及每个所述第二人物实体对应的多个所述第二同事姓名,确定每个所述第二人物实体对应的第二同事实体,所述第二同事实体被第一同事实体唯一链指,所述第一同事实体为所述第一同事姓名对应的人物实体,当所述第一人物实体对应的第一属性数据和所述第二人物实体对应的第二属性数据存储于同一数据库中时,所述第二同事实体被所述第一同事实体唯一链指是指:所述第一同事实体和所述第二同事实体为同一人物实体,当所述第一人物实体对应的第一属性数据和所述第二人物实体对应的第二属性数据存储于不同数据库中时,第二同事实体被第一同事实体唯一链指是指:第二数据库中有且仅有一个姓名为所述第一同事姓名的人物实体,即所述第二人物实体;获取每个所述第二人物实体与对应的每个所述第二同事实体之间的最短路径长度;根据每个所述最短路径长度、每个所述第二人物实体对应的所述第二同事实体的数量及具有所述第二同事实体的第二人物实体的数量,计算每个所述第二人物实体对应的社交网络权重值;将所述第一人物实体与多个所述社交网络权重值中的最大社交网络权重值对应的第二人物实体确定为同一人物实体;所述根据每个所述最短路径长度、每个所述第二人物实体对应的所述第二同事实体的数量及具有所述第二同事实体的第二人物实体的数量,计算每个所述第二人物实体对应的社交网络权重值,包括:将每个所述最短路径长度、每个所述第二人物实体对应的所述第二同事实体的数量及具有所述第二同事实体的第二人物实体的数量代入预设算法中,以计算每个所述第二人物实体对应的社交网络权重值,其中,所述预设算法具体如下: 其中,N为所述第二人物实体对应的所述第二同事实体的数量;M为具有所述第二同事实体的第二人物实体的数量;i的取值范围为[0,N-1],当i=0时,L0为所述第二人物实体到其对应的第一个第二同事实体的最短路径长度,当i=1时,L1为所述第二人物实体到其对应的第二个第二同事实体的最短路径长度,以此类推;j的取值范围为[0,M-1],当i=0、j=0时,L00为具有所述第二同事实体的第一个第二人物实体到其对应的第一个第二同事实体的最短路径长度,当i=0、j=1时,L01为具有所述第二同事实体的第二个第二人物实体到其对应的第一个第二同事实体的最短路径长度,以此类推。
全文数据:
权利要求:
百度查询: 北京国双科技有限公司 人名消歧的方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。