电子科技大学桂盛霖获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于非离群点伪标签算法的短文本聚类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117216258B 。
龙图腾网通过国家知识产权局官网在2025-05-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310810134.9,技术领域涉及:G06F16/35;该发明授权一种基于非离群点伪标签算法的短文本聚类方法是由桂盛霖;周方全设计研发完成,并于2023-07-03向国家知识产权局提交的专利申请。
本一种基于非离群点伪标签算法的短文本聚类方法在说明书摘要公布了:本发明属于深度聚类领域,具体涉及一种基于非离群点伪标签算法的短文本聚类方法。该方法采用掩码预训练语言模型获得特征提取模型进行特征提取,来提高数据集文本特征向的质量。通过基于非离群点伪标签算法结合对比学习和聚类学习,增加对比学习中负例对的质量,有效缓解了固有假负例带来的对会使对比学习的效果变得更差的问题;同时使用对比学习拉远离群点和非离群点之间的距离,通过聚类头拉近非离群点之间的距离,获得更小的类内距离和更大的类间距离,因而能够实现聚类效果的提升。
本发明授权一种基于非离群点伪标签算法的短文本聚类方法在权利要求书中公布了:1.一种基于非离群点伪标签算法的短文本聚类方法,其特征在于,包括以下步骤:步骤1、针对源文本数据集,使用掩码预训练SentenceBERT,以获得针对源文本数据集的特征提取模型;源文本数据集由给定的n个短文本组成;步骤2、提取特征向量,特征向量的提取方法如下:2.1、从源文本数据集中随机选择的一个批次的文本数据,获取其对应的增强文本数据;增强文本数据包含弱增强文本数据和和强增强文本数据;2.2、将步骤2.1选择的文本数据、弱增强文本数据和强增强文本,分别输入步骤1获得的特征提取模型进行特征提取,获得源文本特征向量、弱增强文本特征向量和强增强文本特征向量;步骤3、计算非离群点伪标签,非离群点伪标签的计算方法如下:3.1、采用聚类算法将步骤2.2得到的源文本特征向量聚成K个簇类,并得到每个簇类的初始伪标签;3.2、采用独立森林离群点检测算法检测每个簇类中的离群点数据,并将检测到的离群点数据予以去除,从而得到最终的伪标签;步骤4、基于步骤2得到的源文本特征向量,使用聚类网络计算出该文本数据在K个簇类的概率分布值,利用概率分布值和步骤3得到的伪标签进行聚类得到聚类标签;基于步骤2得到的增强文本特征向量,使用对比学习网络获得更具区分性的特征向量,在此过程中,利用步骤3得到的伪标签缓解固有假负例对影响;采用联合策略对聚类网络和对比学习网络的损失进行调优,并根据调优结果,采用反向传播和随机梯度下降算法更新对比学习网络、聚类网络以及步骤1得到的提取特征模型参数;步骤5、将待处理文本数据输入至更新好的特征提取模型进行特征提取,输入至更新好的聚类模型获得该文本在属于K簇类的概率分布值,从中筛选出最大概率分布值对应的索引,作为该文本的聚类标签。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。