首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

中文姓名模糊匹配的方法、装置、设备及可读存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:京东科技控股股份有限公司

摘要:本发明实施例提供了一种中文姓名模糊匹配的方法、装置、设备及可读存储介质,该方法包括:获取待处理中文姓名;确定待处理中文姓名中每个待处理单字的相似字集合;对每个待处理单字及相似字集合中的每个相似字进行相似姓名组合,形成相似姓名集合;若相似姓名集合中的相似姓名存在于全量姓名数据库中,则相似姓名为待处理的中文姓名模糊匹配出的结果。由于首先获得每个待处理单字的相似字集合,再将待处理单字及每个相似字进行相似姓名的组合,对组合后的相似姓名进行核实的方式进行,所以能够有效减少计算时间,有效提高中文姓名模糊匹配的效率。

主权项:1.一种中文姓名模糊匹配的方法,其特征在于,包括:获取待处理中文姓名;对所述待处理中文姓名中每个待处理单字进行不同维度的特征提取,形成每个待处理单字每个维度的特征数据;其中,对每个待处理单字进行不同维度的特征提取包括:发音特征提取和字形特征提取;发音特征提取包括:声母特征提取,韵母特征提取;字形特征提取包括:四角码特征提取,笔画数特征提取和字形结构特征提取;计算所述每个待处理单字每个维度的特征数据与每个对比单字的对应维度的特征数据的相似度;设置每个维度的特征数据的权重,并将所述每个维度的特征数据的相似度进行加权求和计算,以获得所述每个待处理单字与姓名单字字库中每个对比单字的相似度;若所述待处理单字与所述对比单字的相似度大于预设阈值,则确定所述对比单字为所述待处理单字的相似字;由所述相似字组成的集合确定为所述待处理单字的相似字集合;对所述每个待处理单字及所述相似字集合中的每个相似字进行相似姓名组合,形成相似姓名集合;若所述相似姓名集合中的相似姓名存在于全量姓名数据库中,则所述相似姓名为所述待处理的中文姓名模糊匹配出的结果;所述计算所述每个待处理单字每个维度的特征数据与每个对比单字的对应维度的特征数据的相似度,包括:若所述待处理单字的特征数据为声母特征数据或韵母特征数据,则基于所述待处理单字的声母特征数据或韵母特征数据与所述对比单字的对应维度的特征数据是否相同而确定的对应的数值,确定所述待处理单字与所述对比单字的声母特征数据或韵母特征数据的相似度;若所述待处理单字的特征数据为四角码特征数据,则将所述待处理单字的四角码特征数据的每位数据与所述对比单字的四角码特征数据的对应位的数据进行对比,确定所述待处理单字的四角码特征数据与所述对比单字的四角码特征数据的相似度;若所述待处理单字的特征数据为笔画数特征数据,则基于所述待处理单字的笔画数与对比单字的笔画数大小,确定所述待处理单字的笔画数特征数据与所述对比单字笔画数特征数据的相似度;若所述待处理单字的特征数据为字形结构特征数据,则所述待处理单字的字形结构特征数据是否与所述对比单字的字形结构特征数据相同,确定所述待处理单字的字形结构特征数据与所述对比单字字形特征数据的相似度。

全文数据:

权利要求:

百度查询: 京东科技控股股份有限公司 中文姓名模糊匹配的方法、装置、设备及可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。