基于改进Transformer网络的场景文本识别方法专利

发布时间：2024-09-05 14:50:53 来源：龙图腾网导航：龙图腾网> 最新专利技术> 基于改进Transformer网络的场景文本识别方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：华南理工大学

申请日：2024-05-31

公开（公告）日：2024-08-30

公开（公告）号：CN118570788A

专利技术分类：..文本，例如车牌、覆盖文本或电视图像上的标题[2022.01]

专利摘要：本发明公开了一种基于改进Transformer网络的场景文本识别方法，包括：利用骨干网络对输入图像进行特征提取，得到扁平化的多尺度特征；将扁平化的多尺度特征与位置编码相加，并输入到Transformer编码器，生成贝塞尔中心曲线及其分数；选取出得分最高的前K条曲线，并在每条曲线上均匀采样N个点；利用正弦位置编码和多层感知机将采样点的坐标编码成位置查询，并与内容查询同时输入到跨模态模块；将编码器的输出和跨模态模块的输出同时输入到Transformer解码器中；利用四个预测头进行并行预测，得到最终识别结果。本发明可以实现端到端的自然场景文本，可以提高自然场景文本识别准确率，对不规则文本实例具有较高的鲁棒性。

专利权项：1.基于改进Transformer网络的场景文本识别方法，其特征在于，该改进Transformer网络是对原来Transformer网络的Transformer编码器、Transformer解码器、编码器与解码器之间的连接和预测模块都进行改进，其中，对编码器的改进是：使用多尺度可变形注意力替换原有的多头注意力，以提取更多的特征信息；对解码器的改进是：使用循环分解自注意力模块替换掩码多头注意力中原有的多头注意力，使得网络对文本轮廓特征具有更强的提取能力，从而增强网络的文本检测性能；对编码器与解码器之间的连接的改进是：加入Top-K贝塞尔中心曲线生成、正弦位置编码、多层感知机和跨模态模块，以增强文本检测和识别的交互和协同，从而提高场景文本识别准确率；对预测模块的改进是：设计四个并行的预测头分别进行实例分类、字符识别、中心曲线点预测和边界点预测，以实现更高的文本识别准确率；所述场景文本识别方法的具体实施包括以下步骤：1获取公开的场景文本数据集，将对应标签转换为COCO数据集格式，并且将多个公开的场景文本数据集中的训练集整合成混合训练集，测试集不变；2把训练集中的数据送入改进Transformer网络进行训练，通过改进Transformer网络的骨干网络提取场景文本图像的特征信息，得到扁平化的多尺度特征；将扁平化的多尺度特征与位置编码相加，并输入到使用多尺度可变形注意力的Transformer编码器，生成贝塞尔中心曲线及其分数；选取分数最高的前K条贝塞尔中心曲线，并在选取出的每条曲线上均匀采样N个点；依次使用正弦位置编码和多层感知机将采样点的坐标编码成位置查询，并将其与可学习的内容查询同时输入到设计的跨模态模块，得到复合查询；将Transformer编码器的输出和复合查询同时输入到使用循环分解自注意力模块的Transformer解码器，得到每张图像的解码信息；最后利用四个预测头对解码信息进行并行预测，得到最终的识别结果；其中，在反向传播中先使用匈牙利算法进行配对匹配，使得预测值和真实值一一对应，然后使用实例分类损失、字符识别损失、中心曲线点坐标预测损失和边界点预测损失的加权和作为总损失，经过多次迭代至损失值最小，最终得到最优网络；3将测试集中的数据输入到训练得到的最优网络中得到预测信息，接着将预测的检测框绘制在原始图片上，在检测框的左上角区域标出检测框内的字符识别信息，从而完成场景文本的识别。

百度查询：华南理工大学基于改进Transformer网络的场景文本识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关链接：龙图腾网专利信息网专利交易龙图腾专利交易网 IPTOP知识产权网

相关技术

一种兼容近视和非近视人群的通用型3D眼镜

一种针对废弃铅锌矿山的生态修复结构

一种电动车充电桩的安全插座

沉积旋回自动划分方法、装置、电子设备及介质

滑模干扰观测补偿磁流变阻尼器的悬架系统和控制方法

一种基于深度学习简单循环单元的测井曲线延拓方法

一种热模钢低变形量表面强化的固体渗氮工艺

一种新型的气凝胶毡生产方法及设备

一种高效智能化的自动贴片机

新型带式输送机用小误差煤量扫描测量装置

一种具有抗污防水功能的家装用岩板

一种百叶窗双边冲孔装置

网络相关技术

网络_上海第三织带厂_90204644.6

网络集线器（网络装置）_友讯科技股份有限公司_200530139556.0

网络_罗伯特·博世有限公司_201180050258.7

网络_株式会社高岳制作所_00121629.5

网络_科技设计者有限公司_200880020942.9

网络_株式会社高岳制作所_00117658.7

网络_NXP股份有限公司_201110128588.5

网络和网络终端_株式会社高岳制作所_00117657.9

网络和网络终端_株式会社高岳制作所_00117657.9

网络装置、网络系统、网络方法以及网络程序_三菱电机株式会社_201880100210.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于改进Transformer网络的场景文本识别方法专利

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务