Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于改进Transformer网络的场景文本识别方法专利

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华南理工大学

申请日:2024-05-31

公开(公告)日:2024-08-30

公开(公告)号:CN118570788A

专利技术分类:..文本,例如 车牌、覆盖文本或电视图像上的标题[2022.01]

专利摘要:本发明公开了一种基于改进Transformer网络的场景文本识别方法,包括:利用骨干网络对输入图像进行特征提取,得到扁平化的多尺度特征;将扁平化的多尺度特征与位置编码相加,并输入到Transformer编码器,生成贝塞尔中心曲线及其分数;选取出得分最高的前K条曲线,并在每条曲线上均匀采样N个点;利用正弦位置编码和多层感知机将采样点的坐标编码成位置查询,并与内容查询同时输入到跨模态模块;将编码器的输出和跨模态模块的输出同时输入到Transformer解码器中;利用四个预测头进行并行预测,得到最终识别结果。本发明可以实现端到端的自然场景文本,可以提高自然场景文本识别准确率,对不规则文本实例具有较高的鲁棒性。

专利权项:1.基于改进Transformer网络的场景文本识别方法,其特征在于,该改进Transformer网络是对原来Transformer网络的Transformer编码器、Transformer解码器、编码器与解码器之间的连接和预测模块都进行改进,其中,对编码器的改进是:使用多尺度可变形注意力替换原有的多头注意力,以提取更多的特征信息;对解码器的改进是:使用循环分解自注意力模块替换掩码多头注意力中原有的多头注意力,使得网络对文本轮廓特征具有更强的提取能力,从而增强网络的文本检测性能;对编码器与解码器之间的连接的改进是:加入Top-K贝塞尔中心曲线生成、正弦位置编码、多层感知机和跨模态模块,以增强文本检测和识别的交互和协同,从而提高场景文本识别准确率;对预测模块的改进是:设计四个并行的预测头分别进行实例分类、字符识别、中心曲线点预测和边界点预测,以实现更高的文本识别准确率;所述场景文本识别方法的具体实施包括以下步骤:1获取公开的场景文本数据集,将对应标签转换为COCO数据集格式,并且将多个公开的场景文本数据集中的训练集整合成混合训练集,测试集不变;2把训练集中的数据送入改进Transformer网络进行训练,通过改进Transformer网络的骨干网络提取场景文本图像的特征信息,得到扁平化的多尺度特征;将扁平化的多尺度特征与位置编码相加,并输入到使用多尺度可变形注意力的Transformer编码器,生成贝塞尔中心曲线及其分数;选取分数最高的前K条贝塞尔中心曲线,并在选取出的每条曲线上均匀采样N个点;依次使用正弦位置编码和多层感知机将采样点的坐标编码成位置查询,并将其与可学习的内容查询同时输入到设计的跨模态模块,得到复合查询;将Transformer编码器的输出和复合查询同时输入到使用循环分解自注意力模块的Transformer解码器,得到每张图像的解码信息;最后利用四个预测头对解码信息进行并行预测,得到最终的识别结果;其中,在反向传播中先使用匈牙利算法进行配对匹配,使得预测值和真实值一一对应,然后使用实例分类损失、字符识别损失、中心曲线点坐标预测损失和边界点预测损失的加权和作为总损失,经过多次迭代至损失值最小,最终得到最优网络;3将测试集中的数据输入到训练得到的最优网络中得到预测信息,接着将预测的检测框绘制在原始图片上,在检测框的左上角区域标出检测框内的字符识别信息,从而完成场景文本的识别。

百度查询: 华南理工大学 基于改进Transformer网络的场景文本识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。