Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度网络迁移学习的藏文古籍文档字符识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明公开了一种基于深度网络迁移学习的藏文古籍文档字符识别方法。本发明将深度网络迁移学习应用于藏文古籍字符的识别中,首先基于ImageNet数据集训练深度神经网络,再将网络迁移至藏文古籍字符图像样本集训练。由于此样本集不同字符类别数量存在严重不平衡性,直接训练容易丢失数量较少类别的图像特征。为此,通过旋转和缩放等方式对个数较少类别进行数据增广,以平衡类别间相对数量。在此数据集上,通过迁移预训练的深度网络模型结构,并迁移网络权值作为训练初值,通过调整学习率变化策略并训练,所得模型测试集首选识别率达到96.97%。并通过计算优化迁移策略进一步提升识别率。

主权项:1.一种基于深度网络迁移学习的藏文古籍文档字符识别方法,其特征在于,包括以下步骤:S1、构造藏文估计字符图像数据集:根据自上而下、自左至右以及首选组合部件原则拆分藏文字符为多个部件;利用这些部件及其位置信息,通过随机旋转等方式合成藏文字符图像数据集,使其更接近于真实的藏文古籍文档图像;S2、图像处理:将真实的藏文古籍字符图像通过二值化、行切分及字切分等步骤;对提取的字符图像进行预处理、筛选、切分和归一化,最终得到111932个尺寸为32×64的字符图像;S3、样本增强:经过预处理后的字符图像数据用二维卷积层和池化层,将卷积核与输入数据进行卷积,通过卷积层对字符图像进行处理,卷积公式为: 其中为卷积后的字符特征,为卷积核函数序列,CNN处理字符图像的流程主要 为:输入归一化处理过后的藏文字符图像,使用核函数序列与做卷积运算,提取到不同 藏文字符的特征序列,其中池化层的作用是对数据降维,全连接层能够防止数据训练后特 征信息的丢失,分类层则是将特征数据进行类别分类,使用Relu函数作为激励函数,表达式 为: 分类层的计算过程使用Softmax函数,计算过程为: 其中为藏文字符样本集的类别数,Softmax层的输出结果为藏文字符被分到相应类别 的概率; S4、迁移学习模型:加载灰度图像,尺寸应符合AlexNet的输入尺寸,通过复制二值化图像,将单通道的灰度图像复制到R、G、B三个通道上,形成三通道的RGB图像,基于ImageNet数据集预训练的AlexNet网络已经学习到了大量通用的特征,这些特征对藏文字符的识别可能是有用的,在迁移学习中,通过对模型微调获取最优模型,具体来说:(1)AlexNet的浅层卷积层学习到的特征较为通用,因此,选择冻结这些层的权重,使其在训练过程中保持不变,以加速训练并防止过拟合;(2)将AlexNet的最后一个用于分类的全连接层调整为适应藏文字符的类别数,并进行若干次训练迭代,使其能够更好地适应藏文字符的特征;S5、网络训练:系统训练在具有较高计算能力的硬件环境下进行,在训练开始前进行数据增强处理和调整学习率,具体来说:(1)随机裁剪:对输入图像进行随机裁剪,范围在1-10像素,增加训练样本的多样性;(2)旋转与翻转:对图像进行随机旋转,控制旋转角度在以内,以模拟不同角度的 字符; (3)在训练过程中动态调整学习率,确保模型能够在不同训练阶段进行有效学习;初始阶段使用较高学习率加速收敛,随后逐渐降低学习率以微调模型,结合动量和权重衰减,进一步提升模型的训练效果。

全文数据:

权利要求:

百度查询: 西北民族大学 一种基于深度网络迁移学习的藏文古籍文档字符识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。