恭喜中国平安人寿保险股份有限公司葛宏莉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国平安人寿保险股份有限公司申请的专利文本分类方法、装置、设备及计算机可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN112784052B 。
龙图腾网通过国家知识产权局官网在2024-09-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110276830.7,技术领域涉及:G06F16/35;该发明授权文本分类方法、装置、设备及计算机可读存储介质是由葛宏莉设计研发完成,并于2021-03-15向国家知识产权局提交的专利申请。
本文本分类方法、装置、设备及计算机可读存储介质在说明书摘要公布了:本申请实施例公开了一种文本分类方法、装置、设备及计算机可读存储介质,方法包括:首先,获取目标文本的目标语料集,目标文本包括题目、摘要以及关键词,目标语料集包括摘要语料以及题目、关键词语料,之后,将目标语料集导入训练好的文本表示模型,得到目标文本的第一特征向量,第一特征向量用于反映目标文本的题目、摘要以及关键词,然后,将第一特征向量导入第一分类器,得到目标文本的分类结果,分类结果包括第一分类类别和置信度,若置信度大于或者等于第一阈值,则确定第一分类类别为目标文本的类别。本申请实施例有利于实现提高文本分类的精确度以及效率。
本发明授权文本分类方法、装置、设备及计算机可读存储介质在权利要求书中公布了:1.一种文本分类方法,其特征在于,所述方法包括:获取目标文本的目标语料集,所述目标文本包括题目、摘要以及关键词,所述目标语料集包括摘要语料以及题目、关键词语料;将所述目标语料集导入训练好的文本表示模型,得到所述目标文本的第一特征向量,所述第一特征向量用于反映所述目标文本的题目、摘要以及关键词;所述文本表示模型为执行以下操作得到的:获取原始语料集;对所述原始语料集进行预处理;根据预处理之后的所述原始语料集得到第一语料集;基于所述第一语料集进行Word2Vec词向量训练得到第一结果;获取长文本语料集;根据预处理之后的所述长文本语料集得到第二语料集;根据文本摘要提取算法对所述第二语料集进行处理得到摘要语料;根据所述第二语料集得到题目、关键词语料;根据所述摘要语料和所述题目、关键词语料,得到第三语料集;去掉所述第三语料集中的高频词,得到纯净语料集;将所述纯净语料集进行LDA训练,得到主题-词分布矩阵;根据所述第一结果和主题-词分布矩阵得到所述文本表示模型;将所述第一特征向量导入第一分类器,得到所述目标文本的第一分类结果,所述第一分类结果包括第一分类类别和置信度,所述第一分类器包括svm分类器;若所述置信度大于或者等于第一阈值,则确定所述第一分类类别为所述目标文本的类别;若所述置信度小于所述第一阈值,则将所述第一特征向量分别导入第二模型和第三模型,得到第二分类结果和第三分类结果,所述第二模型包括训练好的KNN模型,所述第三模型包括训练好的NB模型;若所述第一分类结果、所述第二分类结果和所述第三分类结果中任意两个分类结果互不相同,则确定所述第一分类结果为所述目标文本的类别;若所述第一分类结果、所述第二分类结果和所述第三分类结果中存在至少两个分类结果相同,则确定频率最高的分类结果为所述目标文本的类别。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国平安人寿保险股份有限公司,其通讯地址为:518000 广东省深圳市福田区益田路5033号平安金融中心14、15、16、37、41、44、45、46层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。