恭喜西北大学肖云获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜西北大学申请的专利基于视觉Mamba与Transformer混合架构的场景文本识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119964176B 。
龙图腾网通过国家知识产权局官网在2025-06-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510449785.9,技术领域涉及:G06V30/19;该发明授权基于视觉Mamba与Transformer混合架构的场景文本识别方法是由肖云;陈红卫;张益朦;华邦庆;周绿卿;舒健;陈晓江;房鼎益设计研发完成,并于2025-04-11向国家知识产权局提交的专利申请。
本基于视觉Mamba与Transformer混合架构的场景文本识别方法在说明书摘要公布了:本申请涉及一种基于视觉Mamba与Transformer混合架构的场景文本识别方法,包括:获取文本图像数据集;构建场景文本识别网络;基于文本图像数据集对场景文本识别网络进行训练,得到训练后的场景文本识别网络;将待识别场景文本图像输入到训练后的场景文本识别网络,得到待识别场景文本图像中每个字符属于每个文本类别的概率;针对每个字符,选择所有文本类别对应概率的最大值对应的文本,作为字符的识别结果。本申请利用视觉Mamba对视觉上下文进行有效压缩建模,成功用于视觉预测等领域;结合Transformer的多头注意力机制,提升全局上下文信息感知能力,增强对文本图像的序列建模能力,有效提高文本识别算法的准确率。
本发明授权基于视觉Mamba与Transformer混合架构的场景文本识别方法在权利要求书中公布了:1.一种基于视觉Mamba与Transformer混合架构的场景文本识别方法,其特征在于,包括:获取文本图像数据集;所述文本图像数据集中的样本包括多种不同字体、不同背景和不同噪声条件下的场景文本图像;构建场景文本识别网络,所述场景文本识别网络包括空间转换网络STN、ResNet、特征增强模块、序列建模模块和解码器;基于所述文本图像数据集对所述场景文本识别网络进行训练,得到训练后的场景文本识别网络;训练过程包括:将所述样本输入所述场景文本识别网络,所述空间转换网络STN对所述样本进行几何变换矫正,得到矫正后的图像;所述ResNet对所述矫正后的图像进行特征提取,得到局部视觉特征;所述特征增强模块对所述局部视觉特征采用多分支的卷积结构捕捉不同尺度的特征,并基于注意力机制对特征进行加权处理,得到增强后的特征;所述序列建模模块对所述增强后的特征,基于视觉Mamba和Transformer以捕获场景文本中的远程依赖与全局上下文信息,得到处理后的特征;所述解码器对所述处理后的特征进行解码,得到所述样本中每个字符属于每个文本类别的概率;针对每个字符,选择所有文本类别对应概率的最大值对应的文本,作为所述字符的识别结果;将待识别场景文本图像输入到所述训练后的场景文本识别网络,得到所述待识别场景文本图像中每个字符属于每个文本类别的概率;针对每个字符,选择所有文本类别对应概率的最大值对应的文本,作为所述字符的识别结果;所述序列建模模块包括L个依次连接的序列建模单元,最后一个序列建模单元的输出作为所述解码器的输入;所述序列建模单元包括多头注意力机制、视觉Mamba模块;所述增强后的特征输入到所述多头注意力机制,得到第一特征;所述第一特征与所述增强后的特征进行残差连接,并经过层归一化处理,得到第二特征;所述第二特征输入到所述视觉Mamba模块,得到第三特征;所述第三特征与所述第二特征进行残差连接,并经过层归一化处理,得到所述处理后的特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西北大学,其通讯地址为:710069 陕西省西安市太白北路229号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。