首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度学习的智能物流四级行政区划及实体地址识别方法及识别系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海捷晓信息技术有限公司

摘要:本发明涉及到一种基于深度学习的智能物流四级行政区划及实体地址识别方法,该识别方法将行政区划地址处理和实体地址处理任务结合在一起,通过共享模型参数,来提高模型的参数效率和训练效率,该识别方法包括有行政区划地址处理环节、实体地址处理环节、分类任务及命名实体识别任务环节和结果解析环节。本发明的方法通过从业务数据中获取地址的四级行政区划信息和地址的结构化信息,并进行筛选清洗,形成四级行政区划标注数据和实体标注数据;通过引入TF‑IDF策略对识别的实体进行筛选,确保识别出的实体为一个网点下的主要实体,从而提高地址实体提取的准确性,统一行政区划地址名称,以更加准确地提取物流地址的标准行政区划。

主权项:1.一种基于深度学习的智能物流四级行政区划及实体地址识别方法,其特征在于,该识别方法将行政区划地址处理和实体地址处理任务结合在一起,通过共享模型参数来提高模型的参数效率和训练效率,该识别方法包括如下步骤:S1.行政区划地址处理环节:S11.行政区划标签数据获取,利用业务数据库,从已有的物流地址中获得分类标签数据,该业务数据含有已经解析好的物流地址,每个物流地址都经过人工或半自动标注了相应的行政区划分类标签,成为行政区划标签数据;S12.在获得行政区划标签数据后,进行标签数据准备,准备工作包括数据清洗、去重和格式转换,确保数据的质量和统一;S13.进行数据标注,将准备好的行政区划标签数据与地址文本对应起来,形成第一个训练集;S2.实体地址处理环节:S21.通过与第三方地址解析接口交互以获取标注数据,从外部获取命名实体识别的地址标注数据;S22.对获得的地址标注数据进行整理和转换,包括数据清洗和格式转换,以获得适应的数据格式和标签定义;S23.将整理好的地址数据与地址文本对应起来,形成第二个训练集;S3.分类任务及命名实体识别任务环节:S31.输入编码:将第一训练集和第二训练集均输入到BERT编码器中,获得地址文本的上下文向量表示;S32.分类任务:通过BERT编码器的上下文向量表示对行政区划地址进行分类任务,将地址文本划分为省、市、区县及乡镇的类别,实现行政区划地址的准确提取;S33.命名实体识别任务:在BERT编码器模块中添加实体地址处理模块定义的实体标签,进行命名实体识别任务,准确地识别出地址文本中各类实体的边界和类型;S34.动态LOSS权重调整:优化多任务学习中的LOSS函数,在训练过程中根据任务的难易程度和样本分布情况动态调整不同任务的LOSS权重,使模型更关注关键任务和难以识别的样本;S35.利用信息熵进行BERT编码器模型优化:信息熵衡量一个随机变量的不确定程度,将信息熵引入到多任务学习中,通过最小化信息熵来优化模型的泛化能力和鲁棒性;S4.结果解析环节:解析BERT编码器模块的输出结果,将识别出的行政区划地址和地址实体进行整合和解析,得到最终的地址解析结果,对解析结果进行后处理和规则匹配,确保最终结果的准确性和可读性。

全文数据:

权利要求:

百度查询: 上海捷晓信息技术有限公司 一种基于深度学习的智能物流四级行政区划及实体地址识别方法及识别系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。