一种基于数据预处理的地址文本信息相关性学习方法

导航：龙图腾网> 最新专利技术> 一种基于数据预处理的地址文本信息相关性学习方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：杭州电子科技大学

摘要：本发明公开了一种地址文本信息相关性的训练学习方法。针对模型预训练知识缺少针对性、地址文本本身的不规范问题以及训练集存在样本数量不平衡情况，首先对预训练集中地址进行遮掩预处理，然后用预处理后的预训练集对初始化后的模型进行预训练，接着对训练集中地址关系对的两条地址进行修正和补齐，并利用特殊的训练集划分策略将整个训练集划分为多个子训练集，再利用预训练后的模型对各个子训练集进行集成训练和预测，最后对集成模型的泛化能力进行测试。

主权项：1.一种基于数据预处理的地址文本信息相关性学习方法，其特征在于：该方法具体包括以下步骤：步骤一、预训练数据处理收集多个包含完整地址信息的单个地址，然后利用随机算法判断是否对该地址进行遮掩，若进行遮掩，则通过随机算法决定对随机的字进行遮掩或对表征位置信息的特殊词组进行遮掩；再通过随机算法决定被遮掩的具体内容，最后将被选择遮掩的内容用特殊字符mask代替，完成单个地址的随机遮掩处理后，得到预训练集；步骤二、模型预训练s2.1、对模型进行随机初始化，将步骤一得到的预训练集输入模型的词嵌入层，获取预训练集中每个地址的预训练语句矩阵向量；s2.2、在编码器模块中对s2.1得到的预训练语句矩阵向量依次进行多头注意力运算、归一化运算和线性运算，输出预训练编码器特征信息；重复多次，获得最优预训练编码器特征信息；s2.3、在分类线性层根据最优预训练编码器特征信息，获取词库中的每个词与预训练集中被遮掩的内容相同的条件概率；基于该条件概率计算交叉熵损失，并不断地更新模型，最终完成模型的预训练；步骤三、训练数据预处理收集用于地址文本信息相关性任务的地址关系对数据，利用ac自动机算法对这些地址关系对数据中所有地址关系对的两条地址分别进行二次匹配，首先获取地址中标识省、市、区的关键信息，再对错误或残缺的地址信息进行修正和补齐，得到预处理后的训练集；所述ac自动机算法具体步骤为：s3.1、根据收集的地址关系对数据中的每一条地址都拆分为独立的字，然后构建字典树，从根节点开始，根据字典树上的字是否连续存在而决定是否插入新的节点；s3.2、使用深度优先算法构建节点间的fail指针，所述fail指针所指向的字符为已匹配的字符串后缀与指向字符串前缀最长的相同字符末尾所在的节点处；s3.3、然后根据构建的字典树对待匹配的地址不断进行匹配操作，直至匹配所有字符或停留在根节点无法继续匹配；步骤四、划分子训练集对步骤三修正、补齐后的训练集中的各个地址关系对的标签进行筛选，针对预处理后的训练集E，按照标签分为子集e0、e1、e2，提取其中低数据量的子集e0，然后对剩余的子集e1、e2组成的集合E12进行多折交叉分组形成多个新的子集，再将提取的低数据量的子集e0重新加入多折交叉分组后得到的新子集中，得到多个子训练集On：其中，k表示集合E12被拆分的折数；n表示集合E12被拆分的第n折；numtotal表示集合E12的总数据量；numk表示拆分后每一折占集合E12总数据量的平均数，numk＝numtotalk；步骤五、模型集成训练将步骤四得到的每一个子训练集都输入步骤二预处理后的模型中，基于交叉熵损失优化分类线性层的参数与规模，得到经过不同子训练集训练后的模型；将需要进行相关性任务分析的地址关系对输入经过不同子训练集训练后的模型中，得到地址关系对的关系分类概率。

全文数据：

权利要求：

百度查询：杭州电子科技大学一种基于数据预处理的地址文本信息相关性学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：散热器及具有该散热器的燃料电池冷却系统

下一篇：一种雾化机构可拆卸的精油扩香机

相关技术

散热器及具有该散热器的燃料电池冷却系统

一种雾化机构可拆卸的精油扩香机

一种园林用草坪修剪机

一种用于碳素生产的布袋除尘装置

一种能够连续清洗的曝气盘清洗装置及使用方法

导体迹线结构、转子、转角传感器单元和用于制造转角传感器单元的转子的方法

一种箱包材料热裁切设备及其裁切方法

基于消防物联网的调度控制平台

一种防爆配电装置的控温结构

一种HD@CM纳米囊泡平台及其制备方法和应用

考虑可替代物料和切换成本的智能生产排程系统和方法

半导体存储器件

信息相关技术

信息处理方法、信息处理装置以及信息处理程序_松下电器(美国)知识产权公司_202280092299.0

信息处理装置、信息处理方法以及信息处理系统_丰田自动车株式会社_202410349006.3

信息处理装置、信息处理方法以及信息处理程序_荏原环境工程株式会社_202380024190.8

信息处理装置、信息处理方法以及程序_欧姆龙株式会社_202380023632.7

信息处理设备、信息处理方法和程序_索尼集团公司_201980076051.3

信息处理装置以及信息处理方法_雅马哈株式会社_202280092457.2

基于电网信息的信息调节装置与调节方法_国网宁夏电力有限公司吴忠供电公司_202410760687.2

信息校准方法和装置、信息扫描方法_北京京东乾石科技有限公司_202310347676.7

视差信息生成装置及视差信息生成方法_松下知识产权经营株式会社_202380024689.9

信息处理装置、信息处理方法以及程序_京瓷株式会社_202380023654.3

文本相关技术

文本摘要方法、装置、设备及介质_杭州华策影视科技有限公司_202410933907.7

文本分类模型训练方法和装置_北京达佳互联信息技术有限公司_202010158022.6

一种文本生成模型的构建方法_卓世智星(青田)元宇宙科技有限公司_202411031316.7

文本情感分类方法、装置、设备、及存储介质_顺丰科技有限公司_201910823271.X

文本确定方法、装置、电子设备及介质_京东科技信息技术有限公司_202410925502.9

文本提取方法、装置及电子设备_卓世智星(青田)元宇宙科技有限公司_202410973264.9

文本连贯性分析方法及装置_广州晓阳智能科技有限公司_202111042313.X

文本标注方法、装置、设备以及存储介质_招商银行股份有限公司_202410880115.8

一种英语文本阅读用扫描笔_江西生物科技职业学院_202323622404.8

文本补全方法以及电子设备、存储装置_科大讯飞(北京)有限公司_202011452078.9

相关性相关技术

基于语义相关性聚类的组织病理图像分类方法及系统_重庆大学_202410791263.2

样本标注方法、规则相关性度量方法、装置、设备及介质_深圳计算科学研究院_202410999366.8

一种用于治疗肺癌靶向药物相关性腹泻的中药组合物_重庆大学附属肿瘤医院_202410954205.7

一种基于相关性排名的数据重排列功耗分析方法_桂林电子科技大学_202210442260.9

基于光伏相关性和随机性的用电特性预测方法、装置、设备、介质和产品_广东电网有限责任公司广州供电局_202410807130.X

一种基于数据预处理的地址文本信息相关性学习方法_杭州电子科技大学_202111650136.3

补偿用于确定眼睛地形图的多棱面透镜的温度相关性装置和方法_卡尔蔡司医疗技术股份公司_201980076700.X

基于相关性区域候选网络和变换器编码解码结构的小样本目标检测方法_桂林电子科技大学_202410904308.2

一种基于逐层相关性传播的对抗样本检测方法和装置_浙江工业大学_202110761503.0

储层图像代表性区域识别方法、装置及相关设备_中国石油化工股份有限公司_202310345650.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于数据预处理的地址文本信息相关性学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务