买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西安交通大学
摘要:本发明公开了一种面向纳税人行业分类的标签噪声学习方法,包括:首先,提取纳税人行业信息中的文本信息和非文本信息,分别基于XLNet文本预训练网络和编码技术进行文本嵌入和非文本编码处理,得到特征信息;其次,构建用于纳税人行业分类的TextCNN网络,根据特征信息和目标分类数来确定网络的层数、卷积核形状以及各层次的输入输出维度,并将XLNet文本预训练网络和TextCNN网络串联,结合带噪的纳税人行业标签数据作为监督,构建端到端的训练装置;再次,并基于改进的混合比例估计方法估计条件转移矩阵;最后,学习训练装置中的网络参数,并将条件转移矩阵作为TextCNN网络之后的线性层,实现噪声标签预测到真实纳税人行业标签预测的转换,进行纳税人行业分类。
主权项:1.一种面向纳税人行业分类的标签噪声学习方法,其特征在于,包括:首先,提取纳税人行业信息中的文本信息和非文本信息,分别基于XLNet文本预训练网络和编码技术进行文本嵌入和非文本编码处理,得到特征信息;其次,构建用于纳税人行业分类的TextCNN网络,根据特征信息和目标分类数来确定网络的层数、卷积核形状以及各层次的输入输出维度,并将XLNet文本预训练网络和TextCNN网络串联,结合带噪的纳税人行业标签数据作为监督,构建端到端的训练装置;再次,基于改进的混合比例估计方法估计条件转移矩阵;最后,学习训练装置中的网络参数,并将条件转移矩阵作为TextCNN网络之后的线性层,实现噪声标签预测到真实纳税人行业标签预测的转换,进行纳税人行业分类;具体包括以下步骤:1纳税人行业信息处理纳税人行业信息处理包括了文本信息处理以及非文本信息处理,首先,基于XLNet文本预训练网络,对于纳税人文本信息进行分词以及词嵌入,形成对应的词向量,进而拼接生成文本特征,其次,对于纳税人非文本信息中的数值特征以及类别特征,分别使用标准化处理以及独热编码技术进行预处理,之后建立线性网络层进行特征映射,产生与文本特征维度一致的非文本特征,最后,拼接文本特征以及非文本特征,形成特征信息;2纳税人行业分类网络构建与训练装置初始化构建TextCNN网络用于纳税人行业分类,该网络包含了卷积层、池化层和全连接层共三层,基于步骤1得到的特征信息以及目标分类数,依次确定TextCNN网络的层数、卷积核的形状以及各层次的输入输出维度,之后将XLNet预训练网络与TextCNN网络串联,结合带噪的纳税人行业信息标签作为监督,构建端到端的训练装置;3条件转移矩阵估计基于核密度估计的方法,根据带噪的纳税人行业信息数据,估计概率密度函数,将条件转移矩阵估计问题转化为混合比例估计问题,并基于改进的混合比例估计方法求解对应的混合比例系数,进而得到条件转移矩阵;条件转移矩阵估计:将标签噪声学习问题中的条件转移矩阵估计问题转化为混合比例估计问题,并基于改进的混合比例估计方法求解混合比例系数,进而得到条件转移矩阵;具体的实施细节如下所示:Step1:混合比例估计问题构建假设纳税人登记信息中的噪声标签为样本的真实标签为Y,假设样本X与噪声标签相互独立,则对于任意类别c∈C有: 记Pi=PX|Y=i、其中Q表示噪声标签向真实标签的条件迁移概率,则以上的等式表达为矩阵的形式如下: 将上述的矩阵进一步进行分解,得到如下的形式;其中H是一个c×c的矩阵,且满足对角线元素为0,矩阵G是一个形状为c×c的实对角矩阵; 根据矩阵变换的性质,可知矩阵H、矩阵G以及矩阵Q分别满足如下的关系: I-H-1G=QT这里的QT矩阵即是标签噪声学习中的条件转移矩阵,以上的关系表明,若求解矩阵H,则进一步求解得到条件转移矩阵,矩阵的分解等价于如下的c个等式: 该等式进一步表达为如下的形式: 其中满足: 标准的混合比例估计问题表示为如下的形式:F=kH+1-kGk≥0,其中FHG是概率分布函数,并且假设采样于分布F、H的样本已知,其中F为混合物,H、G为组成物;以上矩阵分解得到的等式:正是标准的混合比例估计问题,混合比例估计问题所估计的混合比例系数Hij正是矩阵H的元素;因此,通过求解一系列混合比例估计问题,则能够求解H矩阵,进而根据矩阵关系估计条件转移矩阵QT,从而实现基于标签噪声数据构造风险一致的分类器,进行纳税人行业分类;Step2:组成物的重新生成混合比例估计问题的求解,依赖于锚点的标注,具体而言,若锚点样本存在且已知,则混合比例系数的最大估计量是真实混合比例系数k的无偏估计量;具体而言,首先标记混合物F样本为正样本类Y=1,标记组成物成分H样本为负样本类Y=-1,构建一个MLP网络进行二分类预测,假设网络的输出为fηX,其中X是样本特征,η是网络的参数,利用带噪的正负样本对于MLP网络进行有监督训练,训练完毕后,利用网络对于正样本类的样本进行后验概率预测,选取一个阈值τ,记正样本类样本集为负样本类样本集为将正样本类的样本输入网络进行预测,其中预测值小于选定阈值的样本集合记为则有将后验概率率小于阈值的样本纳入负样本集合,分别得到重构之后的正负样本集合:和满足以及从而完成了组成物样本的重新生成,解决了传统的混合比例估计方法对于锚点的依赖问题;Step3:基于核密度估计的概率密度估计在Step2重构组成物的基础上,基于核密度估计方法估计样本分布的概率密度函数;具体而言,建立一个核函数用于表示已有样本对于特征空间的任意一点的概率密度估计,记x为特征空间的一点,xi是一个已知的样本;并且μ为样本均值,∑=ρ2Q是样本的协方差矩阵,则在使用高斯核函数的情况下,样本xi对于x处概率密度的贡献表示核函数的形式如下所示: 则在全部样本集上,概率密度函数估计量为:其中为样本的集合,根据已经得到的正负样本集合估计得到重构的正负样本的概率密度函数如下: Step4:条件转移矩阵估计依次求解Step1之中构造的c个混合比例估计问题,对于任意一个混合比例估计问题,求解对应的c-1个混合比例系数,设混合物的噪声标签为组成物的噪声标签类为将原始的样本集合分别作为混合比例估计问题之中的正负样本集合基于Step2的方法产生新的正负样本集和并根据Step3的核密度估计方法进行概率密度估计,分别得到以及之后采用Step1之中混合比例问题的最大值估计的方法,估计混合比例系数最大估计量这里G为一种合法概率密度函数,估计量即是元素Hiji≠j的估计值,经过循环,重复过程Step2,3,4求解H矩阵的所有的元素,之后根据如下性质即可求得G矩阵,进而求得条件转移矩阵QT; I-H-1G=QT4训练装置网络参数学习与纳税人行业分类基于标签噪声数据,学习训练装置的网络参数,在训练完成之后,将估计得到的条件转移矩阵作为线性转换层添加在训练装置之后,完成噪声标签预测到真实标签预测的转换,从而实现纳税人行业分类。
全文数据:
权利要求:
百度查询: 西安交通大学 一种面向纳税人行业分类的标签噪声学习方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。