首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种场景文字识别方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:厦门大学

摘要:本发明公开了一种场景文字识别方法及系统。该方法包括:构建训练样本;训练样本包括公用数据集和非公用数据集;公用数据集和非公用数据集均包括场景图片和标签文件;通过训练样本训练Yolov5模型,得到字符检测模型;字符检测模型的输入为场景图片,输出为场景图片中包含的所有单个字符;通过训练样本和字符检测模型识别出的所有单个字符对Textformer模型进行训练;通过训练好的Textformer模型对待识别的场景图片中的文字区域和单个字符进行识别。本发明仅利用“Transoformer”就实现了一个端到端的文本定位器,相较于传统的使用卷积神经网络提取图片特征再输入到“Transformer”中的方法,有着更高的效率。并且,由于只用到了“Transformer”,所以本发明的模型框架更简单。

主权项:1.一种场景文字识别方法,其特征在于,包括:构建训练样本;所述训练样本包括公用数据集和非公用数据集;所述公用数据集和所述非公用数据集均包括场景图片和标签文件;所述非公用数据集的构建具体包括:在所述公用数据集和网络图片中抽取预设个数的场景图片;对抽取的场景图片进行裁剪和拼接;在拼接后的图片中插入英文字母表和阿拉伯数字表图片;通过所述训练样本训练Yolov5模型,得到字符检测模型;所述字符检测模型的输入为场景图片,输出为场景图片中包含的所有单个字符;通过训练样本和所述字符检测模型识别出的所有单个字符对Textformer模型进行训练;所述Textformer模型包括编码器和解码器;所述编码器为SwinTransformer模型,所述解码器为Transformer模型;将文本图片输入到SwinTransformer中,得到一个包含整个图片特征地嵌入向量,将特征地嵌入向量输入到标准的串行的Transformer中,最终输出图片中的每一个单个字符;通过训练好的Textformer模型对待识别的场景图片中的文字区域和单个字符进行识别。

全文数据:

权利要求:

百度查询: 厦门大学 一种场景文字识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。