买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于伪标签融合聚类的垃圾短信分类方法及装置;方法包括:构建垃圾短信分类模型;确定固定号码知识库,根据固定号码对应的数据集,基于伪标签融合聚类对垃圾短信分类模型进行训练;利用训练好的垃圾短信分类模型对垃圾短信进行分类。本发明基于伪标签融合聚类的垃圾短信分类方法,可充分利用无标注数据,挖掘其潜在特征,从而提升模型泛化能力,以及提升垃圾短信的识别能力。
主权项:1.一种基于伪标签融合聚类的垃圾短信分类方法,其特征在于,包括如下步骤:构建垃圾短信分类模型;确定固定号码知识库,根据固定号码对应的数据集,基于伪标签融合聚类对垃圾短信分类模型进行训练;过程包括;将所述固定号码对应的数据集分为标记数据和未标记数据,并确定标记数据的真实标签;基于标记数据和对应的真实标签,利用聚类模型获得未标记数据的伪标签;利用所述真实标签和所述伪标签,按如下损失函数对垃圾短信分类模型进行训练, ;式中,表示伪标签数据集,表示真实标签数据集,,为模型参数,表示预测标签,表示未标记数据集经过反向翻译生成的数据集对应的聚类任务的输出分布利用训练好的垃圾短信分类模型对垃圾短信进行分类。
全文数据:
权利要求:
百度查询: 北京九栖科技有限责任公司 基于伪标签融合聚类的垃圾短信分类方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。