买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国电子科技集团公司第二十八研究所
摘要:本发明公开了一种基于有监督对比学习的细粒度文本分类方法,包括:步骤1,构建文本分类模型,并定义层级分类体系,细粒度刻画类别;步骤2,选取样本,并对于每个样本合理构建正负例,进行数据增广;步骤3,基于交叉熵损失和对比损失对文本分类模型进行联合训练,实现细粒度文本分类。针对细粒度文本分类的实际需求,定义层级分类体系;为了区分细粒度文本分类,引入基于对比学习的损失函数;为了构建样本的正例,提出了一种基于随机替换的数据增广方式;提出一种基于对比损失和交叉熵损失相结合的细粒度文本分类方法,引入了对比学习的思想解决细粒度文本分类问题,保证同类别样本较近的语义距离。
主权项:1.一种基于有监督对比学习的细粒度文本分类方法,其特征在于,包括以下步骤:步骤1,构建文本分类模型,并定义层级分类体系,细粒度刻画类别;步骤2,选取样本,并对于每个样本合理构建正负例,进行数据增广;步骤3,基于交叉熵损失和对比损失对文本分类模型进行联合训练,实现细粒度文本分类;其中,步骤3包括:步骤3-1,通过bert编码得到语义向量;步骤3-2,计算对比损失拉近同类别样本距离;步骤3-3,计算文本分类交叉熵损失;步骤3-4,构建联合损失函数,对文本分类模型进行联合训练,实现细粒度文本分类;步骤3-1所述通过bert编码得到语义向量,方法包括:对于数据增广后的训练样本通过bert分词号首位添加两个特殊标记[CLS]和[EOS],标记为:xi=[CLS],t1,t2,…,tL,[EOS]其中L为文档长度,对于该样本序列xi经过bert特征抽取后的向量标记为hi;步骤3-2所述计算对比损失拉近同类别样本距离Lcl,方法包括: 其中,i是取值为1至K的自然数,xi表示增广后批处理内每个样本;τ是取值0到1之间的温度参数,hp表示当前样本的正样本xp经过bert编码后的向量表示,hi是当前样本xi经过bert编码号的向量归一化后的表示,k是集合中去除当前训练样本i以后的其他训练样本,hk是其bert语义编码;步骤3-3所述计算文本分类交叉熵损失的方法包括:对于经过增广后的样本xi计算交叉熵损失LCE,方法包括: 其中,C表示类别个数,yi,c是样本真实标签,是模型输出,表示样本xi于类别c的概率;步骤3-4中所述构建联合损失函数L的方法包括:L=1-λLCE+λLcl其中,λ是超参数,控制两个损失函数的比重。
全文数据:
权利要求:
百度查询: 中国电子科技集团公司第二十八研究所 一种基于有监督对比学习的细粒度文本分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。