首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种数字化成果智能质检验收系统及方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东亚齐信息技术股份有限公司

摘要:本申请提供了一种数字化成果智能质检验收系统及方法,涉及档案数字化领域,包括图像采集模块,用于获取当前档案文件的图像信息;第一质检模块,用于对当前档案的图像信息进行初次扫描识别并生成初始文本和待验证文本,并将初始文本与图像信息进行内容比对,比对不通过的初始文本标记为待修改文本;第二质检模块,用于对待验证文本进行内容验证修改,并生成修正文本;数据库模块。本申请通过设置的第一质检模块和第二质检模块,通过第二质检模块对经过第一质检模块中置信度低的字符进行再次验证,有效降低了文本的误识率和需要人工平凡介入的工作量,有效提高了识别的准确性和对文档质检的工作质量。

主权项:1.一种数字化成果智能质检验收系统,其特征在于,包括:第一质检模块,用于对当前档案的图像信息进行初次扫描识别并生成初始文本和待验证文本,并将初始文本与图像信息进行内容比对,比对通过的初始文本确定为最终档案的电子文本信息,比对不通过的初始文本标记为待验证文本;所述第一质检模块通过内设的OCR-A引擎对获取的图像信息进行初次识别生成初始文本,并记录初始文本中每个字符的对应的置信度,并将所有置信度与预设的置信度阈值X一一比较,若所有的置信度的数值均大于置信度阈值X的数值,则将该初始文本与图像信息进行内容比对;若存在字符的置信度数值小于或等于置信度阈值X的数值,则将该初始文本标记为待验证文本并将这些字符分别依次标记为A1、A2、......An;第二质检模块,用于对待验证文本进行内容验证修改,并生成修正文本,将修正文本与当前档案文件的图像信息进行内容比对,比对通过的修正文本确定为最终档案的电子文本信息,比对不通过的修正文本标记为待修改文本;所述第二质检模块,通过内设的OCR-B引擎和OCR-C引擎分别对第一质检模块中标记的字符再次扫描并生成对应的带标记的字符识别B1、B2、......Bn和C1、C2、......Cn,通过投票机制分别对标记中数字数值相同的集合(A1、B1、C1)、......(An、Bn、Cn)进行投票并确定最终的字符,将确定的字符返回待验证文本形成修正文本,将修正文本与档案文件的图像信息进行内容比对;所述投票机制的工作步骤如下:S100、对于(A1、B1、C1)、......(An、Bn、Cn)中的所有字符集合进行一一判断,选取每个字符集合中出现次数大于或等于2的字符,并将确定的字符返回入初始文本形成修正文本;S200、若(A1、B1、C1)、......(An、Bn、Cn)中的每个字符集合中各字符出现的次数均为1,则进行加权投票;所述S200步骤中进行加权投票的工作步骤如下:S2001、获取该字符依次经过OCR-A引擎、OCR-B引擎和OCR-C引擎识别的置信度,分别标记为A1a、B1b、C1c;S2002、获取OCR-A引擎、OCR-B引擎和OCR-C引擎各自识别的准确率M,并分别标记为Am、Bm、Cm;S2003、分别计算A1a*Am、B1b*Bm、C1c*Cm的数值;S2004、将A1a*Am、B1b*Bm、C1c*Cm依次相互比较,选出最大的数值,并将该数值对应的字符返回待验证文本形成修正文本;所述准确率M的计算公式为M=PL;其中,P为当前OCR引擎中与被选中返回入初始文本中字符相同的字符的数量,L为进入第一质检模块中标记字符的数量;第一质检模块中还包括预设的标记下限值N,当L大于N,则启动新一轮的识别准确率M的计算,并将该生成的准确率M数值用于当前加权投票的计算;当L小于或等于N,则进行加权投票的计算的准确率M为上次加权投票的准确率M;所述置信度阈值X的取值范围为0.8至1;还包括报警模块,用于将经过第一质检模块和第二质检模块的待修改文本以及错误的字符进行标记,用于提醒人工修订。

全文数据:

权利要求:

百度查询: 广东亚齐信息技术股份有限公司 一种数字化成果智能质检验收系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。