买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国地质大学(武汉)
摘要:本发明提供一种基于分词模式匹配的非标准地名地址数据清洗方法及装置,通过分词模式匹配在数据库中查找标准地名地址,若存在机构内部地址数据库则再通过内部地址数据库匹配得到二次地址分类结果,将二次地址分类结果与之前的标准地名地址组合得到最终结果,否则将之前获得的标准地名地址作为最终结果。通过深度学习学习中文语境中文本标注的特征,获取待查询数据后通过分词模型输出词性标注结果进而得到分词结果,分离出国家标准行政区划要素和兴趣点内部地址要素,然后接入该兴趣点相关的数据库进行二次清洗。本发明将存在大量错误、名称混乱、信息不完整等问题的非标准地名地址通过数据清洗转换为标准的地名地址,提高了地名地址的正确率。
主权项:1.一种基于分词模式匹配的非标准地名地址数据清洗方法,其特征在于,包括以下步骤;S1:获取预设的分词模型并进行模型训练,训练完成后,获得训练好的分词模型;S2:获取待查询数据并进行预处理后,输入训练好的分词模型,然后通过分类器输出国家标准行政区划要素和兴趣点内部地址要素;S3:构建第一索引;S4:根据第一索引将国家标准行政区划要素在地理信息数据库中进行索引匹配,获得地址分类结果;S5:判断是否存在机构内部地址数据库,若存在,进入步骤S6;否则进入步骤S9;S6:构建第二索引;S7:当接收到兴趣点内部地址要素查询请求时,根据第二索引将兴趣点内部地址要素在机构内部地址数据库中进行索引匹配,获得二次地址分类结果;S8:将地址分类结果和二次地址分类结果组合后作为标准地名地址的最终结果,结束流程;S9:将地址分类结果作为标准地名地址的最终结果,结束流程。
全文数据:
权利要求:
百度查询: 中国地质大学(武汉) 基于分词模式匹配的非标准地名地址数据清洗方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。