基于分词模式匹配的非标准地名地址数据清洗方法及装置

导航：龙图腾网> 最新专利技术> 基于分词模式匹配的非标准地名地址数据清洗方法及装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国地质大学(武汉)

摘要：本发明提供一种基于分词模式匹配的非标准地名地址数据清洗方法及装置，通过分词模式匹配在数据库中查找标准地名地址，若存在机构内部地址数据库则再通过内部地址数据库匹配得到二次地址分类结果，将二次地址分类结果与之前的标准地名地址组合得到最终结果，否则将之前获得的标准地名地址作为最终结果。通过深度学习学习中文语境中文本标注的特征，获取待查询数据后通过分词模型输出词性标注结果进而得到分词结果，分离出国家标准行政区划要素和兴趣点内部地址要素，然后接入该兴趣点相关的数据库进行二次清洗。本发明将存在大量错误、名称混乱、信息不完整等问题的非标准地名地址通过数据清洗转换为标准的地名地址，提高了地名地址的正确率。

主权项：1.一种基于分词模式匹配的非标准地名地址数据清洗方法，其特征在于，包括以下步骤；S1：获取预设的分词模型并进行模型训练，训练完成后，获得训练好的分词模型；S2：获取待查询数据并进行预处理后，输入训练好的分词模型，然后通过分类器输出国家标准行政区划要素和兴趣点内部地址要素；S3：构建第一索引；S4：根据第一索引将国家标准行政区划要素在地理信息数据库中进行索引匹配，获得地址分类结果；S5：判断是否存在机构内部地址数据库，若存在，进入步骤S6；否则进入步骤S9；S6：构建第二索引；S7：当接收到兴趣点内部地址要素查询请求时，根据第二索引将兴趣点内部地址要素在机构内部地址数据库中进行索引匹配，获得二次地址分类结果；S8：将地址分类结果和二次地址分类结果组合后作为标准地名地址的最终结果，结束流程；S9：将地址分类结果作为标准地名地址的最终结果，结束流程。

全文数据：

权利要求：

百度查询：中国地质大学(武汉) 基于分词模式匹配的非标准地名地址数据清洗方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种人工繁育龙骨马尾杉的方法

下一篇：一种快速结晶装置

相关技术

一种人工繁育龙骨马尾杉的方法

一种快速结晶装置

一种结构可调的柔性尼龙11压电分离纤维膜及制备方法和应用

光学成像系统

热分层现象的模拟方法、装置、设备、介质及程序产品

一种推广信息处理方法、装置、存储介质及电子设备

一种后备模式下基于保护区段建立最短触发距离的计轴布置方法

一种医用敷料及其制备方法

一种风电振动传感器连接装置

一种基于量子加密算法的财务数据安全存储方法及装置

一种用于钢桥面铺装钢—聚丙烯复合纤维混凝土施工装置及方法

一种基于深度学习的页面自动化测试方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于分词模式匹配的非标准地名地址数据清洗方法及装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务