买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:大连民族大学
申请日:2018-04-24
公开(公告)日:2021-03-19
公开(公告)号:CN108564139B
专利技术分类:
专利摘要:基于满文部件切分的印刷体满文识别装置,属于文字识别领域,为了解决提高满文切分精度的问题,要点是存储有多条指令,所述指令适于由处理器加载并执行:S1.对满文部件的切分;S2.满文部件归一化;S3.满文部件特征提取与融合;S4.满文部件识别;S5.满文部件重组并识别满文单词,效果是识别前,以满文部件作为切分单元,从而能够极大降低对满文切分过程中的过切分和弱切分现象发生。
专利权项:1.一种基于满文部件切分的印刷体满文识别装置,其特征在于:存储有多条指令,所述指令适于由处理器加载并执行:S1.对满文部件的切分;S2.满文部件归一化;S3.满文部件特征提取与融合;S4.满文部件识别;S5.满文部件重组并识别满文单词;所述的S1.对满文部件的切分包括提取满文单词图像中轴线及提取满文单词图像中轴线后的满文部件切分两个步骤;所述的提取满文单词图像中轴线的方法是:S1.1.定位满文单词图像中轴线;S1.2.检测满文单词图像中轴线宽度;所述的提取满文单词图像中轴线后的满文部件切分的方法是:满文部件粗切分;弱分割区域的判定与细切分;过分割区域判定与合并;过分割区域判定与合并的方法是:1若第1个切分区域过分割,则与第2个切分区域合并;否则转步骤2;2若倒数第2个切分区域过分割,则与最后一个切分区域合并;否则转步骤3;3若过分割区域既不是第1个,也不是倒数第2个,则分别计算其相邻的上、下2个切分区域的高度h_up和h_lw,如果h_up<h_lw,则与上一个切分区域合并;如果h_up>h_lw,则合并到下一个切分区域;否则转步骤4;4若过分割区域的上、下2个相邻区域的高度相等,则分别计算与上区域合并后的连通域个数num_up,与下区域合并后的连通域个数num_lw,如果num_up<num_lw,则与上一个切分区域合并,如果num_up>num_lw,则与下一个切分区域合并;5输出合并过分割区域的切分行序列;所述的满文部件是由切分得到的,其切分方法包括:满文部件粗切分:由于满文部件以中轴线为连接,因此首先以中轴线为中心,将满文单词分为左、中、右3部分;其中,左侧部分的范围为满文单词的第1列到第bl-1列,右侧部分的范围为第br+1列到满文单词的第W列,W是满文单词图像的宽度,bl是中轴线的左边界,br是中轴线的右边界,baseline_width是满文单词图像中轴线的宽度;分别对左侧部分和右侧部分进行水平投影,记为pl和pr;定义第i行的切分代价函数为:Costi=pli+pri,i=1,2,…,H3理想情况下切分行的代价函数值应为0,即左右两部分在该行都没有除中轴线之外的笔画;但实际情况中,由于扫描、倾斜校正、二值化预处理带来的噪声影响,对切分行的约束条件太严格则会导致严重的弱分割问题;设T1为满文部件粗切分阈值,T1的值为T1=[12×baseline_width];只有满足条件:Costi≤T14的行才是候选切分行,并记所有满足条件4的候选切分行组成的序列为Can_seg;经满文部件粗切分所获得的候选切分行集合,会出现以下三种情况:1把图像的第1行当做候选切分行,这显然是不合理的候选行,故应从候选切分行集合中删除;2图像的从第1行开始的连续相邻行图像以最后1行为结束的连续相邻行,都是不合理的候选行子段,故应从候选切分集合中删除这些子段;3除了2中的连续相邻行组成的子段,只需要其中位于中间位置的一条候选切分行,其余的并不需要;故应采用中间位置的候选行替代整个连续相邻行组成的子段;采用以下策略进一步删除Can_seg中的多余候选切分行:1如果Can_seg中只有1条候选分割行,且为第1行,则删除该行;否则转步骤2;2查找连续候选切分行组成的子段conti_subseg,若子段的起始行为第1行,或者子段的结束行为第H行,则删除该子段的所有行,H是满文单词图像的高度;否则转步骤3;3在连续候选切分子段conti_subseg中,按从小到大顺序,用中位数替代该子段的所有行,偶数个候选行时取中间两个值的平均值再向上取整;4输出删除多余候选切分行的新切分行序列Can_seg_new;候选分割区域的弱分割判决与细切分:经粗切分的满文部件可能存在弱切分情况;统计结果表明,满文部件的高度一般不超过5倍baseline_width,故设弱分割判定阈值T_less=5;计算Can_seg_new中每个切分区域的高度hl,则高度hl>T_less×baseline_width的切分区域被判定为弱分割区域;对于弱分割区域,采用上述粗切分方法和细切分阈值T2进行二次切分,并保存在Seg1序列中;细切分阈值T2在粗切分的基础上再次放宽对切分候选行的约束,通过大量实验确定T2=[23×baseline_width];其中,对T2的值的确定实验,是为选择不同倍数的baseline_width作为T2,这些倍数都是=1的分数,执行满文部件切分方法,对于切分后的图像比较,选择出切分效果更好的满文单词图像所对应的T2,最终选择为上述T2值。
百度查询: 大连民族大学 基于满文部件切分的印刷体满文识别装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。