中国科学院合肥物质科学研究院汪增福获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学院合肥物质科学研究院申请的专利一种基于深度学习的文本图像语种判别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116259061B 。
龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310033544.7,技术领域涉及:G06V30/244;该发明授权一种基于深度学习的文本图像语种判别方法是由汪增福;李永瑞设计研发完成,并于2023-01-10向国家知识产权局提交的专利申请。
本一种基于深度学习的文本图像语种判别方法在说明书摘要公布了:本发明公开了一种基于深度学习的自然场景文本图像语种判别方法,其步骤包括:1收集文本图像,建立语种判别数据集;2构建文本图像语种判别网络;3计算每一张输入图片对应的损失函数并训练语种判别网络;4利用训练后的文本图像语种判别网络对任意输入的待判别图片进行语种判别。本发明在训练好语种判别网络之后,可对给定的自然场景文本图像有效地进行语种判别,具有较高的实用价值。
本发明授权一种基于深度学习的文本图像语种判别方法在权利要求书中公布了:1.一种基于深度学习的文本图片语种判别方法,其特征在于,包括以下步骤: 步骤1:收集多个语种的文本图片并进行语种类别的标注,得到标注后的文本图片集合,记为,并将对应的标签集合记为,其中,表示第i张文本图片,表示第i张文本图片对应的文字标签,表示图片的高度,表示图的宽度,为通道数;N表示文本图片数量; 步骤2:构建文本图像语种判别网络,包括:图像特征提取模块、序列建模模块和语种分类模块,并用于对第i张文本图片进行识别,得到长度为语种类别数为S的预测概率; 所述图像特征提取模块包含M个级联的卷积层;其中,第1个卷积层由一个主分支组成,所述主分支由卷积操作层、批量归一化操作层和整流线性单元ReLU构成,其余N-1个卷积层中的每个卷积层均包含K个子块,每个子块包括一个主分支和一个跳跃连接分支; 当m=1时,将第i张文本图片输入语种判别网络后,由所述图像特征提取模块中的第m个卷积层对进行处理,得到特征图; 当m=2,k=1时,第m-1个卷积层输出的特征图输入第m个卷积层中,由第k个子块的主分支对特征图进行处理,相应得到主分支的处理结果,同时由跳跃连接分支对张量进行投影操作后再改变特征图的通道数,得到跳跃连接分支的处理结果,以逐元素相加的方式对和进行融合,得到第k个子块的处理结果; 当m=2,k=2,3,…,K时,将第k-1个子块的处理结果输入第m个卷积层的第k个子块中进行处理,并输出第k个子块的处理结果;从而由第K个子块输出处理结果; 当m=3,4,…,M,k=1,2,3,…,K时,将第m-1个卷积层的第K个子块输出处理结果输入第m个卷积层中,并经过K个子块的处理后输出处理结果;从而由第M个卷积层的第K个子块输出处理结果,并记为第i张文本图片的图像特征图,其中,、表示图像特征图的高和宽,表示通道数; 所述图像特征提取模块对进行形状变换,得到第i张文本图片的特征序列Ei=[ei 1,...,ei k,...,ei w],其中,ei k是特征序列Ei的第k个向量,维数为; 步骤3:利用式1构建文本图像语种判别网络对第i张文本图片的标签平滑损失函数: 1 式1中,表示由第i张文本图片对应的文字标签与第i张图片的语种预测概率计算得到的交叉熵损失,表示由第j个语种类别与第i张图片的语种预测概率计算得到的交叉熵损失,表示标签平滑因子; 步骤4:基于标注后的文本图片集合,利用反向传播算法训练所述文本图像语种判别网络进行训练,并计算标签平滑损失函数,以更新网络参数,直到所述标签平滑损失函数收敛为止,从而得到训练后的文本图像语种判别网络; 步骤5:利用训练后的文本图像语种判别网络对任意待判别的文本图片进行语种判别,得到待判别图片的预测概率向量,再选择预测概率向量中最大概率所对应的类别,作为待判别图片的语种判别结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院合肥物质科学研究院,其通讯地址为:230031 安徽省合肥市蜀山区蜀山湖路350号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。