国创智造科技(上海)有限公司贺仁龙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国创智造科技(上海)有限公司申请的专利语料清洗方法、系统、介质及终端获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120278142B 。
龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510758301.9,技术领域涉及:G06F40/205;该发明授权语料清洗方法、系统、介质及终端是由贺仁龙;贺仁驹;任吉设计研发完成,并于2025-06-09向国家知识产权局提交的专利申请。
本语料清洗方法、系统、介质及终端在说明书摘要公布了:本发明提供一种语料清洗方法、系统、介质及终端,所述方法包括:获取待清洗的原始语料,对所述原始语料进行预标注处理以生成预标注语料,对所述预标注语料进行解析以生成第一解析信息;对所述原始语料进行语料优化以得到优化语料,对所述优化语料进行解析以生成第二解析信息;对所述原始语料进行增强处理以得到增强语料,对所述增强语料进行解析以生成第三解析信息;根据第一解析信息、第二解析信息和第三解析信息生成目标解析信息,根据目标解析信息生成对应的合成语料;根据脱敏库对所述合成语料进行脱敏处理以生成对应的脱敏语料,对所述脱敏语料进行标准化处理后生成对应的目标语料。本发明有效提高了语料的清洗效率和质量。
本发明授权语料清洗方法、系统、介质及终端在权利要求书中公布了:1.一种语料清洗方法,其特征在于,包括如下步骤: 获取待清洗的原始语料,对所述原始语料进行预标注处理以生成预标注语料,对所述预标注语料进行解析以生成第一解析信息; 对所述原始语料进行语料优化以得到优化语料,对所述优化语料进行解析以生成第二解析信息; 对所述原始语料进行增强处理以得到增强语料,对所述增强语料进行解析以生成第三解析信息; 根据所述第一解析信息、所述第二解析信息和所述第三解析信息生成目标解析信息,根据所述目标解析信息生成对应的合成语料; 根据脱敏库对所述合成语料进行脱敏处理以生成对应的脱敏语料,对所述脱敏语料进行标准化处理后生成对应的目标语料; 对所述原始语料进行预标注处理以生成预标注语料,对所述预标注语料进行解析以生成第一解析信息,包括: 对所述原始语料进行标签分级以生成树状结构,所述树状结构包括多个结构块,每一个所述结构块对应一个字段; 将所述原始语料复制多份以得到多个备份语料,按照预设的规则,根据所述树状结构对每个所述备份语料进行分级标注以得到多个备份标注信息; 对多个所述备份标注信息进行差异化比对,并依次在所述所述树状结构的各个位置选择出现频次最高的标注词作为目标标注词,按顺序将多个所述目标标注词组合在一起形成所述预标注语料; 通过第一解析工具对所述预标注语料进行解析以得到所述第一解析信息。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国创智造科技(上海)有限公司,其通讯地址为:200120 上海市浦东新区中国(上海)自由贸易试验区临港新片区环湖西二路888号C楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。