一种面向纳税人行业分类的标签噪声学习方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西安交通大学

摘要：本发明公开了一种面向纳税人行业分类的标签噪声学习方法，包括：首先，提取纳税人行业信息中的文本信息和非文本信息，分别基于XLNet文本预训练网络和编码技术进行文本嵌入和非文本编码处理，得到特征信息；其次，构建用于纳税人行业分类的TextCNN网络，根据特征信息和目标分类数来确定网络的层数、卷积核形状以及各层次的输入输出维度，并将XLNet文本预训练网络和TextCNN网络串联，结合带噪的纳税人行业标签数据作为监督，构建端到端的训练装置；再次，并基于改进的混合比例估计方法估计条件转移矩阵；最后，学习训练装置中的网络参数，并将条件转移矩阵作为TextCNN网络之后的线性层，实现噪声标签预测到真实纳税人行业标签预测的转换，进行纳税人行业分类。

主权项：1.一种面向纳税人行业分类的标签噪声学习方法，其特征在于，包括：首先，提取纳税人行业信息中的文本信息和非文本信息，分别基于XLNet文本预训练网络和编码技术进行文本嵌入和非文本编码处理，得到特征信息；其次，构建用于纳税人行业分类的TextCNN网络，根据特征信息和目标分类数来确定网络的层数、卷积核形状以及各层次的输入输出维度，并将XLNet文本预训练网络和TextCNN网络串联，结合带噪的纳税人行业标签数据作为监督，构建端到端的训练装置；再次，基于改进的混合比例估计方法估计条件转移矩阵；最后，学习训练装置中的网络参数，并将条件转移矩阵作为TextCNN网络之后的线性层，实现噪声标签预测到真实纳税人行业标签预测的转换，进行纳税人行业分类；具体包括以下步骤：1纳税人行业信息处理纳税人行业信息处理包括了文本信息处理以及非文本信息处理，首先，基于XLNet文本预训练网络，对于纳税人文本信息进行分词以及词嵌入，形成对应的词向量，进而拼接生成文本特征，其次，对于纳税人非文本信息中的数值特征以及类别特征，分别使用标准化处理以及独热编码技术进行预处理，之后建立线性网络层进行特征映射，产生与文本特征维度一致的非文本特征，最后，拼接文本特征以及非文本特征，形成特征信息；2纳税人行业分类网络构建与训练装置初始化构建TextCNN网络用于纳税人行业分类，该网络包含了卷积层、池化层和全连接层共三层，基于步骤1得到的特征信息以及目标分类数，依次确定TextCNN网络的层数、卷积核的形状以及各层次的输入输出维度，之后将XLNet预训练网络与TextCNN网络串联，结合带噪的纳税人行业信息标签作为监督，构建端到端的训练装置；3条件转移矩阵估计基于核密度估计的方法，根据带噪的纳税人行业信息数据，估计概率密度函数，将条件转移矩阵估计问题转化为混合比例估计问题，并基于改进的混合比例估计方法求解对应的混合比例系数，进而得到条件转移矩阵；条件转移矩阵估计：将标签噪声学习问题中的条件转移矩阵估计问题转化为混合比例估计问题，并基于改进的混合比例估计方法求解混合比例系数，进而得到条件转移矩阵；具体的实施细节如下所示：Step1：混合比例估计问题构建假设纳税人登记信息中的噪声标签为样本的真实标签为Y，假设样本X与噪声标签相互独立，则对于任意类别c∈C有：记Pi＝PX|Y＝i、其中Q表示噪声标签向真实标签的条件迁移概率，则以上的等式表达为矩阵的形式如下：将上述的矩阵进一步进行分解，得到如下的形式；其中H是一个c×c的矩阵，且满足对角线元素为0，矩阵G是一个形状为c×c的实对角矩阵；根据矩阵变换的性质，可知矩阵H、矩阵G以及矩阵Q分别满足如下的关系： I-H-1G＝QT这里的QT矩阵即是标签噪声学习中的条件转移矩阵，以上的关系表明，若求解矩阵H，则进一步求解得到条件转移矩阵，矩阵的分解等价于如下的c个等式：该等式进一步表达为如下的形式：其中满足：标准的混合比例估计问题表示为如下的形式：F＝kH+1-kGk≥0，其中FHG是概率分布函数，并且假设采样于分布F、H的样本已知，其中F为混合物，H、G为组成物；以上矩阵分解得到的等式：正是标准的混合比例估计问题，混合比例估计问题所估计的混合比例系数Hij正是矩阵H的元素；因此，通过求解一系列混合比例估计问题，则能够求解H矩阵，进而根据矩阵关系估计条件转移矩阵QT，从而实现基于标签噪声数据构造风险一致的分类器，进行纳税人行业分类；Step2：组成物的重新生成混合比例估计问题的求解，依赖于锚点的标注，具体而言，若锚点样本存在且已知，则混合比例系数的最大估计量是真实混合比例系数k的无偏估计量；具体而言，首先标记混合物F样本为正样本类Y＝1，标记组成物成分H样本为负样本类Y＝-1，构建一个MLP网络进行二分类预测，假设网络的输出为fηX，其中X是样本特征，η是网络的参数，利用带噪的正负样本对于MLP网络进行有监督训练，训练完毕后，利用网络对于正样本类的样本进行后验概率预测，选取一个阈值τ，记正样本类样本集为负样本类样本集为将正样本类的样本输入网络进行预测，其中预测值小于选定阈值的样本集合记为则有将后验概率率小于阈值的样本纳入负样本集合，分别得到重构之后的正负样本集合：和满足以及从而完成了组成物样本的重新生成，解决了传统的混合比例估计方法对于锚点的依赖问题；Step3：基于核密度估计的概率密度估计在Step2重构组成物的基础上，基于核密度估计方法估计样本分布的概率密度函数；具体而言，建立一个核函数用于表示已有样本对于特征空间的任意一点的概率密度估计，记x为特征空间的一点，xi是一个已知的样本；并且μ为样本均值，∑＝ρ2Q是样本的协方差矩阵，则在使用高斯核函数的情况下，样本xi对于x处概率密度的贡献表示核函数的形式如下所示：则在全部样本集上，概率密度函数估计量为：其中为样本的集合，根据已经得到的正负样本集合估计得到重构的正负样本的概率密度函数如下： Step4：条件转移矩阵估计依次求解Step1之中构造的c个混合比例估计问题，对于任意一个混合比例估计问题，求解对应的c-1个混合比例系数，设混合物的噪声标签为组成物的噪声标签类为将原始的样本集合分别作为混合比例估计问题之中的正负样本集合基于Step2的方法产生新的正负样本集和并根据Step3的核密度估计方法进行概率密度估计，分别得到以及之后采用Step1之中混合比例问题的最大值估计的方法，估计混合比例系数最大估计量这里G为一种合法概率密度函数，估计量即是元素Hiji≠j的估计值，经过循环，重复过程Step2,3,4求解H矩阵的所有的元素，之后根据如下性质即可求得G矩阵，进而求得条件转移矩阵QT； I-H-1G＝QT4训练装置网络参数学习与纳税人行业分类基于标签噪声数据，学习训练装置的网络参数，在训练完成之后，将估计得到的条件转移矩阵作为线性转换层添加在训练装置之后，完成噪声标签预测到真实标签预测的转换，从而实现纳税人行业分类。

全文数据：

权利要求：

百度查询：西安交通大学一种面向纳税人行业分类的标签噪声学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种无线电力传输方法、无线电力发送器和无线电力接收器

下一篇：一种基于电子元器件控制的防卡死智能锁体

相关技术

一种无线电力传输方法、无线电力发送器和无线电力接收器

一种基于电子元器件控制的防卡死智能锁体

用于传递和存储用于ESIM设备变更的激活码的方法和装置

具有均匀氢键合相互作用、同碱基对和异碱基对偏好以及错配辨别力的修饰核碱基

公路软土路基超载预压时超载比的确定方法、装置及介质

一种基于数字密钥的电子公文管理系统及方法

云计算架构多租户任务资源分配调度方法及装置

新能源多场站柔性直流外送系统强度评估方法、装置

一种轮胎X光检验机输送定位系统及工作方法

一种木门加工灰尘清理装置

一种汽车电子设备和菊花链通信的超时复位系统

一种变压器电磁温度流体多物理场间接耦合计算方法及系统

标签相关技术

RFID电子标签_加减信息科技(深圳)有限公司_202310894259.4

可激光打刻标签_苏州高泰电子技术股份有限公司_202420626063.7

一种标签天线及抗金属电子标签_北京京东乾石科技有限公司_202310546351.1

一种考虑标签形状和大小的面特征标签放置方法_中国传媒大学_202410953490.0

标签管理系统、标签操作方法以及数据表操作方法和装置_北京沃东天骏信息技术有限公司_202010108268.2

标签片段化工作流程_因美纳有限公司_202380031296.0

一种防盗电子标签_江苏红炭电子科技有限公司_202420774475.5

一种标准样品用标签_山东省济南生态环境监测中心_202420548933.3

一种标签去除装置_河南嘉境再生资源有限公司_202420035644.3

便携式自动标签仪_中国人民解放军陆军军医大学第二附属医院_202420635830.0

分类相关技术

情感分类模型训练方法、系统、情感分类方法及系统_赛力斯汽车有限公司_202411007675.9

电能质量问题分类模型构建及分类方法、设备和介质_河北高速公路集团有限公司_202411420456.3

一种养殖鱼分类装置及分类方法_江苏科技大学_202411026161.8

扁平图像分类任务重组成树形图像分类任务的方法及系统_西安理工大学_202411196336.X

可自动分类的喷印机_江门荣信电路板有限公司_202420749535.8

一种智能垃圾分类柜_张家港市惠氏电器有限公司_202420438035.2

无人FRP管智能分类存储设备_南京龙鑫电子科技有限公司_202323647377.X

一种色母粒分类装置_苏州御冠新材料科技有限公司_202323545512.X

一种试卷分类装置_兰州现代职业学院_202420550976.5

一种垃圾分类系统_萍乡学院_202411185660.1

行业相关技术

物流寄递行业人、证、物认证追溯系统_内蒙古捷易科技有限公司_202323617212.8

一种新能源行业研磨设备_安徽儒特实业有限公司_202420576878.9

造价咨询行业的AI应用与管理系统_深圳市建衡达工程造价咨询有限公司_202411026699.9

一种可调节的建筑行业用定位打孔装置_广东亿厦建设工程有限公司_202420626462.3

一种适用于锂电行业分切机吸尘装置_浙江顶皓新能源科技有限公司_202411037734.7

一种用于医药行业的数据系统_北京健易保科技有限公司_202411055265.1

一种暖通供热行业的高效节能除污器_北京帝尔曼流体控制设备有限公司_202411293256.6

一种用于储能行业的工业除湿机_三河同飞制冷股份有限公司_202323404781.4

用于行业分析的模型训练方法、系统及装置_深圳传世智慧科技有限公司_202411426039.X

一种办公行业的大模型会议纪要生成系统_浪潮云信息技术股份公司_202411082096.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种面向纳税人行业分类的标签噪声学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务