首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于数据预处理的地址文本信息相关性学习方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州电子科技大学

摘要:本发明公开了一种地址文本信息相关性的训练学习方法。针对模型预训练知识缺少针对性、地址文本本身的不规范问题以及训练集存在样本数量不平衡情况,首先对预训练集中地址进行遮掩预处理,然后用预处理后的预训练集对初始化后的模型进行预训练,接着对训练集中地址关系对的两条地址进行修正和补齐,并利用特殊的训练集划分策略将整个训练集划分为多个子训练集,再利用预训练后的模型对各个子训练集进行集成训练和预测,最后对集成模型的泛化能力进行测试。

主权项:1.一种基于数据预处理的地址文本信息相关性学习方法,其特征在于:该方法具体包括以下步骤:步骤一、预训练数据处理收集多个包含完整地址信息的单个地址,然后利用随机算法判断是否对该地址进行遮掩,若进行遮掩,则通过随机算法决定对随机的字进行遮掩或对表征位置信息的特殊词组进行遮掩;再通过随机算法决定被遮掩的具体内容,最后将被选择遮掩的内容用特殊字符mask代替,完成单个地址的随机遮掩处理后,得到预训练集;步骤二、模型预训练s2.1、对模型进行随机初始化,将步骤一得到的预训练集输入模型的词嵌入层,获取预训练集中每个地址的预训练语句矩阵向量;s2.2、在编码器模块中对s2.1得到的预训练语句矩阵向量依次进行多头注意力运算、归一化运算和线性运算,输出预训练编码器特征信息;重复多次,获得最优预训练编码器特征信息;s2.3、在分类线性层根据最优预训练编码器特征信息,获取词库中的每个词与预训练集中被遮掩的内容相同的条件概率;基于该条件概率计算交叉熵损失,并不断地更新模型,最终完成模型的预训练;步骤三、训练数据预处理收集用于地址文本信息相关性任务的地址关系对数据,利用ac自动机算法对这些地址关系对数据中所有地址关系对的两条地址分别进行二次匹配,首先获取地址中标识省、市、区的关键信息,再对错误或残缺的地址信息进行修正和补齐,得到预处理后的训练集;所述ac自动机算法具体步骤为:s3.1、根据收集的地址关系对数据中的每一条地址都拆分为独立的字,然后构建字典树,从根节点开始,根据字典树上的字是否连续存在而决定是否插入新的节点;s3.2、使用深度优先算法构建节点间的fail指针,所述fail指针所指向的字符为已匹配的字符串后缀与指向字符串前缀最长的相同字符末尾所在的节点处;s3.3、然后根据构建的字典树对待匹配的地址不断进行匹配操作,直至匹配所有字符或停留在根节点无法继续匹配;步骤四、划分子训练集对步骤三修正、补齐后的训练集中的各个地址关系对的标签进行筛选,针对预处理后的训练集E,按照标签分为子集e0、e1、e2,提取其中低数据量的子集e0,然后对剩余的子集e1、e2组成的集合E12进行多折交叉分组形成多个新的子集,再将提取的低数据量的子集e0重新加入多折交叉分组后得到的新子集中,得到多个子训练集On: 其中,k表示集合E12被拆分的折数;n表示集合E12被拆分的第n折;numtotal表示集合E12的总数据量;numk表示拆分后每一折占集合E12总数据量的平均数,numk=numtotalk;步骤五、模型集成训练将步骤四得到的每一个子训练集都输入步骤二预处理后的模型中,基于交叉熵损失优化分类线性层的参数与规模,得到经过不同子训练集训练后的模型;将需要进行相关性任务分析的地址关系对输入经过不同子训练集训练后的模型中,得到地址关系对的关系分类概率。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 一种基于数据预处理的地址文本信息相关性学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。