恭喜吉林科讯信息科技有限公司孙骏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜吉林科讯信息科技有限公司申请的专利一种文本数据清洗方法、装置、存储介质及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117271774B 。
龙图腾网通过国家知识产权局官网在2025-04-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311317241.4,技术领域涉及:G06F16/35;该发明授权一种文本数据清洗方法、装置、存储介质及设备是由孙骏;孙庆华;张志庆;程庆设计研发完成,并于2023-10-11向国家知识产权局提交的专利申请。
本一种文本数据清洗方法、装置、存储介质及设备在说明书摘要公布了:本申请公开了一种文本数据清洗方法、装置、存储介质及设备,该方法包括:首先在利用干净类别的文本训练数据训练完文本分类模型后,将目标文本数据和干净类别的文本训练数据输入该模型进行第一次数据清洗,然后判断第一次清洗结果是否满足停止清洗数据的预设条件;若是,则将其作为目标文本数据的清洗结果;若否,则利用干净类别的文本训练数据和清洗后剩余的目标文本数据,对文本分类模型进行第二次训练,并利用更新后的文本分类模型和干净类别的文本训练数据对目标文本数据进行第二次数据清洗,依次类推,直至得到的第M次清洗结果满足停止清洗数据的预设条件,并将第M次清洗结果作为目标文本数据的清洗结果,从而提高了数据清洗效果。
本发明授权一种文本数据清洗方法、装置、存储介质及设备在权利要求书中公布了:1.一种文本数据清洗方法,其特征在于,包括:获取待清洗的目标文本数据;所述目标文本数据中混淆了部分干净类别的文本数据;在利用干净类别的文本训练数据训练完文本分类模型后,将所述目标文本数据和所述干净类别的文本训练数据输入所述文本分类模型进行第一次数据清洗,得到第一次清洗结果;所述第一次清洗结果包括从所述目标文本数据中清洗出的属于干净类别的文本数据和清洗后剩余的目标文本数据;判断所述第一次清洗结果是否满足停止清洗数据的预设条件;若是,则将第一次清洗结果作为所述目标文本数据对应的最终清洗结果;若否,则利用所述干净类别的文本训练数据和所述清洗后剩余的目标文本数据,对所述文本分类模型进行第二次训练,得到更新后的文本分类模型,并利用更新后的文本分类模型和所述干净类别的文本训练数据对所述目标文本数据进行第二次数据清洗,得到第二次清洗结果;依次类推,直至得到的第M次清洗结果满足停止清洗数据的预设条件,则将所述第M次清洗结果作为目标文本数据对应的最终清洗结果,所述M为大于0的正整数;所述将所述目标文本数据和所述干净类别的文本训练数据输入所述文本分类模型进行第一次数据清洗,得到第一次清洗结果,包括:将所述干净类别的文本训练数据输入所述文本分类模型,得到所述干净类别的文本训练数据的第一统计量,并计算所述第一统计量的控制限数值;将所述目标文本数据输入所述文本分类模型,得到所述目标文本数据中每一条文本数据在所述干净类别下的第二统计量;将所述第二统计量与所述控制限数值进行比对,并根据比对结果,判断所述第二统计量对应的所述目标文本数据中的一条文本数据是否属于干净类别,若是,则将其从所述目标文本数据中清洗出来,得到第一次清洗结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人吉林科讯信息科技有限公司,其通讯地址为:130000 吉林省长春市朝阳区前进大街996号力旺广场B座16楼1632室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。