买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:深圳航天智慧城市系统技术研究院有限公司
摘要:本发明公开了一种地址相似度计算方法、装置及存储介质,方法包括:利用BERT模型,从多字段地址数据中提取出语料特征,并转化为结构化标准地址的文本特征向量;根据不同字段在地址中的重要程度以及BERT模型训练中的特征表现,为各字段设定相应的权值,以便在相似度计算阶段综合考虑各部分的影响;根据文本特征向量利用余弦相似度方法计算中文文本以及其对应拼音的相似度,以双维度衡量地址间的相似性;基于中文文本以及其对应拼音的相似度,确定多字段文本的综合相似度,并设定阈值判断两个多字段文本是否相似;本发明方法不仅提升了在面对多字段地址匹配任务时的成功率,而且有效地解决了长文本中有效地址提取准确率低的问题。
主权项:1.一种地址相似度计算方法,其特征在于,所述方法包括以下步骤:利用BERT模型,从输入的多字段地址数据中提取出语料特征,并将所述语料特征转化为结构化标准地址的文本特征向量;以所述结构化标准地址为样本,建立一个动态更新的标准地址库;根据不同字段在地址中的重要程度以及BERT模型训练过程中的特征表现,为各字段设定相应的权值;根据所述文本特征向量利用余弦相似度方法计算中文文本以及其对应拼音的相似度;基于中文文本以及其对应拼音的相似度,确定多字段文本的综合相似度,并根据预先设定的阈值判断两个多字段文本是否相似;根据地址间的相似性结果动态更新所述标准地址库;通过BERT模型构造语料特征,所述语料特征包括地址关键词、地址类型和地址关系信息,所述BERT模型分别提取地址关键词、地址类型和地址关系信息的语义特征,进行拼接融合,最终通过所述BERT模型全连接层得到文本特征向量。
全文数据:
权利要求:
百度查询: 深圳航天智慧城市系统技术研究院有限公司 地址相似度计算方法、装置、设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。