恭喜国创智造科技(上海)有限公司贺仁龙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜国创智造科技(上海)有限公司申请的专利语料管理方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119719254B 。
龙图腾网通过国家知识产权局官网在2025-06-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510222525.8,技术领域涉及:G06F16/31;该发明授权语料管理方法及系统是由贺仁龙;任吉;何振乾设计研发完成,并于2025-02-27向国家知识产权局提交的专利申请。
本语料管理方法及系统在说明书摘要公布了:本发明提供一种语料管理方法及系统,所述方法包括:根据语料要求,选择对应的采集渠道获取原始语料,对所述原始语料进行预处理得到中间语料;根据预设标准,对所述中间语料进行语料清洗以得到清洗语料;根据价值对齐规则,对所述清洗语料进行对齐筛选以得到目标语料;对所述目标语料进行语料标注,以得到每一个所述目标语料对应的标注数据;根据所述目标语料的格式,将所述目标语料和所述标注数据封装在一起得到封装数据包,并对所述封装数据包进行维护。本发明对语料有效管理,能够提高语料的使用效率,增强用户体验。
本发明授权语料管理方法及系统在权利要求书中公布了:1.一种语料管理方法,其特征在于,包括:根据语料要求,选择对应的采集渠道获取原始语料,对所述原始语料进行预处理得到中间语料;根据预设标准,对所述中间语料进行语料清洗以得到清洗语料;根据价值对齐规则,对所述清洗语料进行对齐筛选以得到目标语料;对所述目标语料进行语料标注,以得到每一个所述目标语料对应的标注数据;根据所述目标语料的格式,将所述目标语料和所述标注数据封装在一起得到封装数据包,并对所述封装数据包进行维护;所述对所述原始语料进行预处理得到中间语料,包括:复制所述原始语料得到第一对照语料和第二对照语料,将所述原始语料按顺序均匀拆分为N个基础语料组,将所述第一对照语料随机均匀拆分为N个第一语料组,将所述第二对照语料组随机均匀拆分为N个第二语料组,N为正整数;分别获取N个所述基础语料组、N个所述第一语料组和N个所述第二语料组的数据完整度、数据准确度和数据及时率,并根据对应的所述数据完整度、所述数据准确度和所述数据及时率分别得到N个所述基础语料组的质量评估值、N个所述第一语料组的第一评估值和N个所述第二语料组的第二评估值;计算N个所述第一语料组的所述第一评估值的第一均值以及N个所述第二语料组的所述第二评估值的第二均值,并根据所述第一均值和所述第二均值计算标准平均值;比较所述质量评估值与所述标准平均值的大小,并剔除所述质量评估值小于所述标准平均值对应的所述基础语料组,将剩余的所述基础语料组重新组合以得到所述中间语料。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国创智造科技(上海)有限公司,其通讯地址为:200120 上海市浦东新区中国(上海)自由贸易试验区临港新片区环湖西二路888号C楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。