买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提出一种基于多样特征生成的零样本汉字识别方法,解析汉字的部首组成获取表意描述序列;对表意描述序列进行混合语义嵌入获得多语义向量;对已见类汉字图像进行特征提取获取真实特征;构建特征生成网络学习多语义向量到真实特征的映射;通过已见类训练集进行训练后通过多种未见类语义向量生成未见类特征;利用未见类特征结合已见类训练集的特征共同训练识别模型使其具备识别已见类和未见类汉字能力。本发明通过混合语义嵌入提供多种语义来生成训练样本,有助于缓解合成特征的域迁移问题和特征混淆问题,提高特征生成的泛化能力和鲁棒性;通过为识别模型提供高质量的未见类特征,缓解零样本汉字识别的偏倚问题,提高了未见汉字的识别能力。
主权项:1.一种基于多样特征生成的零样本汉字识别方法,其特征在于:包括以下步骤;步骤S1、通过把每个汉字的部首和结构表示成树状结构,对树状结构进行先序遍历获取汉字的表意描述序列IDS,表示为,y表示对应汉字类别标签;其中,表意描述序列根据是否对应有已见类汉字图像分为已见类表意描述序列和未见类表意描述序列;步骤S2、将每个汉字的表意描述序列从层次分解、部首自信息、词向量三个方向进行嵌入获得对应三种语义向量,和;步骤S3、已见类汉字图像经过DenseNet169网络编码为特征图,其中,和分别代表特征图的高、宽和通道数,然后将其展平得到一个维的真实特征,并由所有已见类汉字图像的真实特征构成真实样本;步骤S4、分别为汉字的三种语义向量,和分配一个特征生成网络FGN,来学习每一语义向量到真实特征的映射;步骤S5、利用已见类样本训练特征生成网络FGN,使得FGN生成特征逐渐接近真实特征的分布,所述已见类样本包括所有已见类汉字图像的真实特征,以及对应的所有已见类表意描述序列的三种语义向量,和;步骤S6、通过训练好的三个特征网络FGN,利用每一未见类表意描述序列嵌入得到的三种语义向量来生成未见类训练特征样本、和,获得所有未见类表意描述序列的未见类训练特征样本、和作为生成样本集;步骤S7、利用生成样本集及其对应汉字类别标签、和真实样本及其对应汉字类别标签一起训练识别模型,用以使识别模型识别未见过的汉字类别;步骤S8、将待识别图像经过DenseNet169网络进行特征提取后输入训练好的识别模型并获得结果。
全文数据:
权利要求:
百度查询: 厦门理工学院 一种基于多样特征生成的零样本汉字识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。