上海艺赛旗软件股份有限公司林平获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海艺赛旗软件股份有限公司申请的专利一种训练集优化方法、装置及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117315681B 。
龙图腾网通过国家知识产权局官网在2026-03-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311221880.0,技术领域涉及:G06V30/19;该发明授权一种训练集优化方法、装置及存储介质是由林平;吴鑫;唐琦松;谢涛设计研发完成,并于2023-09-20向国家知识产权局提交的专利申请。
本一种训练集优化方法、装置及存储介质在说明书摘要公布了:本发明公开了一种训练集优化方法、装置及存储介质,所述方法包括获取用于OCR模型训练的测试集和训练集;针对所述测试集和训练集,区分纯语种词条与混合语种词条;针对所述纯语种词条和混合语种词条,分别构建纯语种词条和混合语种词条的特征表示;基于所述纯语种词条的特征表示和混合语种词条的特征表示,构建测试集和训练集的特征分布差异;根据所述测试集和训练集的特征分布差异优化训练集,本发明可以将高维的语义特征降维到有限的向量空间中,并利用向量空间比较训练集与测试集的差异并以引导训练集的优化。
本发明授权一种训练集优化方法、装置及存储介质在权利要求书中公布了:1.一种训练集优化方法,其特征在于,包括: 获取用于OCR模型训练的测试集和训练集; 针对所述测试集和训练集,区分纯语种词条与混合语种词条,包括: 对测试集和训练集进行识别; 识别时,识别字符串中的英文、数字、汉字与符号,若某一词条具有中文、数字、英文以及标点至少之二则被区分为混合语种词条,否则为纯语种词条; 其中,所述混合语种词条是具有中文、数字、英文以及标点至少之二的词条,纯语种词条表示为词条中仅有中文的词条、仅有数字的词条以及仅有英文的词条; 针对所述纯语种词条和混合语种词条,分别构建纯语种词条和混合语种词条的特征表示,包括: 针对中文词条,构建以词条长度为特征表示,针对英文和阿拉伯数字,构建以词条长度结合连续重复字符的特征表示,具体为: 针对纯语种词条,统计出每种词条的占比,,与出现频数,,,其中,表示纯中文词条在数据集中的占比,表示纯英文在数据集中的占比,表示纯数字词条在数据集中的占比; 针对中文词条,考虑词条长度作为特征,得到的特征分布向量表示为: ; 公式1中,为训练集或者测试集最大的词条长度,代表纯中文词条中长度为的占比,计算方式为: ; 公式2中,纯中文词条数量,为某一长度纯中文词条的数量; 针对纯英文和数字的词条,构建以词条长度结合连续重复字符的特征表示,具体方法如下: 首先,对长度特征向量进行表征,公式如下: ; 在公式3中,表示为长度特征向量,表示纯数字词条数字度为的占比,计算为: ; 在公式4中,为纯数字词条数量,为词条长度为的纯数字词条的数量; 接着,加入重复字符的统计以细分特征向量: ; 在公式5中,表示为纯数字词条的特征分布向量,*代表没有重复数字项,式中表示为词条长度为2的且不是重复数字项的词条占比,表示为词条长度为2的词条且阿拉伯数字为0的词条占比,表示为词条长度N的词条且阿拉伯数字为9的词条占比; 其中数字为1时,新占比的计算方式如下: ; 在公式6中,表示为词条长度为i,且重复数字项为1的词条占比,表示为词条长度为i,且重复数字项为1的词条数量,为词条长度为的纯数字词条的数量,表示纯数字词条数字度为的占比; 同理,纯英文词条的特征向量表示为: ; 在公式7中,表示为词条长度为1,且没有重复英文的词条占比,表示为词条长度为1,且重复英文为a的词条占比,相应的,为词条长度为N,且重复英文为z的词条占比;英文对应的新增下标为a-Z共52个大小写字母以及*; 基于所述纯语种词条的特征表示和混合语种词条的特征表示,构建测试集和训练集的特征分布差异; 根据所述测试集和训练集的特征分布差异优化训练集。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海艺赛旗软件股份有限公司,其通讯地址为:201100 上海市闵行区申长路1398弄1-4号阿里中心T2栋3楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励