浙江工业大学曹斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江工业大学申请的专利一种基于半监督学习的标签抗噪文本分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116521863B 。
龙图腾网通过国家知识产权局官网在2026-01-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211714103.5,技术领域涉及:G06F16/35;该发明授权一种基于半监督学习的标签抗噪文本分类方法是由曹斌;姜钦凯;蒋凯;范菁设计研发完成,并于2022-12-27向国家知识产权局提交的专利申请。
本一种基于半监督学习的标签抗噪文本分类方法在说明书摘要公布了:本发明公开一种基于半监督学习的标签抗噪文本分类方法,该方法首先通过任务自适应预训练预测出每个样本在每个类别上的概率,再使用置信学习方法来评估每个样本的标签质量,将所有训练数据划分为噪声样本和干净样本;对噪声样本进行处理,借助数据增强、集成学习等策略来预测噪声样本的伪标签,使用MixMatch方法来集成一致性正则化、熵最小化和传统正则化方法,结合半监督学习的主流范式思想和组件,将原始标签和伪标签结合起来重新标记噪声样本;最后结合噪声样本和干净样本,使用MixUp方法以线性插值的方式重新构建新的训练样本和标签并重新训练最终的文本分类模型。该方法极大地利用了噪声标签数据,将噪声样本的利用率最大化,提升了神经网络的鲁棒性。
本发明授权一种基于半监督学习的标签抗噪文本分类方法在权利要求书中公布了:1.一种基于半监督学习的标签抗噪文本分类方法,其特征在于,包括以下步骤: S1:预训练:将文本分类任务本身的训练数据当作无标签数据进行预训练并预测出每个样本在每个类别上的概率所述训练样本,即文本分类任务中每一条需要分类的文本样本; S2:噪声数据划分:将步骤S1预测得到的概率和原带噪标签作为置信学习的输入,通过置信学习方法划分出噪声数据U和干净数据C;所述原带噪标签为原训练样本已经人为标记的标签; S3:数据增强:将步骤S2得到的噪声数据U进行多种数据增强处理,得到扩充后的文本; S4:集成学习:将步骤S3得到扩充后的文本,分别进行多种模型预测,预测出每个样本属于每个类别的概率; S5:噪声样本重新标记:使用混合匹配方法,计算步骤S4得到的概率均值,并猜测其伪标签,即对每一条样本赋予一个新的预测标签,使用锐化方法进行熵最小化处理; S6:重新训练并得到最终模型:使用混合方法将S5中重新标记的噪声数据U和干净数据C进行混合,构建新的训练样本和标签并进行模型重新训练,当损失函数最小时训练结束,得到最终的文本分类模型;所述混合方法是以线性插值的方式来构建新的训练样本和标签,对于样本x1,y1和样本x2,y2,通过以下方式获得混合后的样本x′,y′: Bα,α=∫01xα-11-xα-1dx λ~Betaα,α λ′=maxλ,1-λ x′=λ′x1+1-λ′x2 y′=λ′y1+1-λ′y2 其中Bα,α表示贝塔分布;λ′表示超参数;x′表示线性插值处理后的样本;α是超参数,λ是随机变量且服从Beta分布; 对于含有干净标签的数据C=ci,pi;i∈1,…,N和重新预测标签的噪声数据将其串联Concat起来并洗牌Shuffle形成MixUp所需要的数据源W: 对于第i个样例,计算MixUpCi,Wi加入到集合C′中,计算加入到集合U′中,使得C转变为C′,转变为U′。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310014 浙江省杭州市下城区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励