广东宜教通教育有限公司杜振锋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广东宜教通教育有限公司申请的专利场景文本识别方法、系统、存储介质及计算设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116486391B 。
龙图腾网通过国家知识产权局官网在2026-01-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310185157.5,技术领域涉及:G06V20/62;该发明授权场景文本识别方法、系统、存储介质及计算设备是由杜振锋;周晓清;龚汝洪;曾凡智;周燕设计研发完成,并于2023-03-01向国家知识产权局提交的专利申请。
本场景文本识别方法、系统、存储介质及计算设备在说明书摘要公布了:本发明公开了一种场景文本识别方法、系统、存储介质及计算设备,利用知识蒸馏的思想将场景文本识别模型分为教师网络模型与学生网络模型,利用教师网络模型来训练学生网络模型,以得到一个轻量级的场景文本识别模型;将场景文本训练集输入场景文本识别模型中,使用ResNet架构来实现特征提取,且对其中四个阶段输出的特征进行蒸馏;使用Transformer模块来实现注意力机制,对提取到的特征进行序列建模,并利用教师网络模型中的相似度矩阵和前馈网络的输出作为监督信号,训练学生网络模型;最后经线性层得到最终的预测结果。本发明可提高场景文本的识别精度,并且构建的轻量级识别模型可以部署到计算能力较弱的小型或移动设备上。
本发明授权场景文本识别方法、系统、存储介质及计算设备在权利要求书中公布了:1.基于知识蒸馏的场景文本识别方法,其特征在于,包括以下步骤: 1获取场景文本数据集,对数据集中的图片进行数据增强处理,作为场景文本训练集; 2构建基于注意力机制的场景文本识别模型,用于场景文本识别,该场景文本识别模型以大参数量的复杂网络模型作为教师网络模型,以参数量少的轻量级作为学生网络模型,为了在文本特征的序列建模中学习不同文本间的长距离依赖关系,场景文本识别模型使用Transformer模块来实现注意力机制; 3将场景文本训练集中的图片输入到步骤2构建的场景文本识别模型中进行模型训练,在训练过程中将参数量大的教师网络模型的知识迁移到参数量少的学生网络模型上,实现知识蒸馏;其中,对于特征提取部分,采用中间层特征蒸馏的方式监督学生网络模型的训练;对于序列建模部分,利用教师网络模型中的相似度矩阵和前馈网络的输出作为监督信号,训练学生网络模型; 对步骤2构建的场景文本识别模型进行知识蒸馏,具体是将大模型学习到的知识迁移到小模型中,该场景文本识别模型的蒸馏方案是基于ResNet架构与Transformer模块构建的,从特征提取模块与序列建模模块进行蒸馏,总的蒸馏损失函数公式如公式5所示: Ldistill=λfLf+λsLs5 式中,Ldistill为总的蒸馏损失函数,Lf为特征提取模块的蒸馏损失,Ls为序列建模模块的蒸馏损失,λf和λs分别为对应的损失函数的权重; 教师网络模型和学生网络模型的特征提取部分都采用了ResNet架构,其中教师网络模型是一个34层的ResNet网络,学生网络模型是一个15层的ResNet网络,场景文本识别模型对ResNet架构中的四个阶段输出的特征进行蒸馏,特征提取模块的蒸馏损失Lf的公式如公式6所示: 式中,和分别代表教师网络模型和学生网络模型在第n个阶段输出的特征,N代表特征提取模块进行蒸馏的阶段数量,MSE为均方误差函数; 教师网络模型的序列建模部分采用了6层的Transformer架构,学生网络模型则采用了2层的Transformer架构,且其中的多头注意力模块的头部数量设置为8;场景文本识别模型在教师网络模型的第三个Transformer模块的输出蒸馏学生网络模型的第一个Transformer模块的输出,教师网络模型的第六个Transformer模块的输出蒸馏学生网络模型的第二个Transformer模块的输出,序列建模模块的蒸馏损失Ls的公式如公式7所示: 式中,代表教师网络模型的第a层序列特征,1≤a≤Y,代表学生的第b层序列特征,1≤b≤Y,y代表教师网络模型和学生网络模型第y层知识蒸馏,Y代表序列建模模块进行蒸馏的阶段数量;序列建模模块在多头注意力模块与前馈网络分别进行蒸馏操作,L为其加权和,其公式如公式8所示: 式中,Lattention代表对注意力模块知识蒸馏的损失函数,Lffn代表对前馈网络知识蒸馏的损失函数,具体损失函数公式分别如公式9、10所示: Lattention=CEAT,AS9 Lffn=CEFT,FS10 式中,AT和AS分别代表教师网络模型的注意力矩阵与学生网络模型的注意力矩阵,FT和FS分别代表教师网络模型和学生网络模型前馈网络的输出;CE代表对二者进行交叉熵损失函数计算; 4保存训练完成的场景文本识别模型作为最优模型,后续将待测数据输入该最优模型中,即可得到精准的场景文本识别结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东宜教通教育有限公司,其通讯地址为:510700 广东省广州市黄埔区中新广州知识城亿创街1号406房之106;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励