Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 福州大学柯逍获国家专利权

福州大学柯逍获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉福州大学申请的专利基于YOLOV5的自然场景文本检测与识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115205839B

龙图腾网通过国家知识产权局官网在2025-07-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210785742.4,技术领域涉及:G06V20/62;该发明授权基于YOLOV5的自然场景文本检测与识别方法是由柯逍;卢恺翔设计研发完成,并于2022-07-05向国家知识产权局提交的专利申请。

基于YOLOV5的自然场景文本检测与识别方法在说明书摘要公布了:本发明提出一种基于YOLOV5的自然场景文本检测与识别方法,包括:步骤S1:获取自然场景文本图像数据集,将对应标签转换为YOLOV5所需要的格式;步骤S2:用YOLOV5的轻量级特征提取器提取图像文本的位置信息和深层的语义信息;利用跨层连接和空间金字塔池化层将浅层特征和深层特征结合;在跨层连接中加入形变卷积,使得网络能够更好地处理特征图尺度的变化;步骤S3:利用Kmeans算法聚合过的锚框拟合真实文本框的长宽比,并预测锚框与真实框的偏差;利用长卷积处理特征,让锚框的长宽比更贴合真实文本框;步骤S4:利用双向LSTM和注意力机制对齐文本特征并预测文本序列;其能够实现利用深度学习完成对自然场景文本进行检测和识别,且轻量级足以实现在移动端部署。

本发明授权基于YOLOV5的自然场景文本检测与识别方法在权利要求书中公布了:1.一种基于YOLOV5的自然场景文本检测与识别方法,其特征在于,包括以下步骤; 步骤S1:获取自然场景文本图像数据集,将对应标签转换为对应YOLOV5的格式; 步骤S2:采用YOLOV5的轻量级特征提取器提取图像文本的位置信息和深层的语义信息;利用跨层连接和空间金字塔池化层将浅层特征和深层特征结合;在跨层连接中加入形变卷积,使得网络能够更好地处理特征图尺度的变化; 步骤S3:利用Kmeans算法聚合过的锚框拟合真实文本框的长宽比,并预测锚框与真实框的偏差;利用长卷积处理特征,使锚框的长宽比更贴合真实文本框; 步骤S4:利用双向LSTM和注意力机制对齐文本特征并预测文本序列; 步骤S2具体包括以下步骤; 步骤S21:将图像按批次输入到由多个Conv模块和多个BottleneckCSP模块组成的特征提取器中,其中Conv模块包含卷积核大小3×3的卷积层、批归一化层BN和SiLU激活函数;如公式一所示: FConv_out=SiLUBNConv3×3FConv_in 公式一; 其中FConv_in是Conv模块的输入特征,Conv3×3是卷积核大小3×3的卷积层; BottleneckCSP模块由Bottleneck加上CSP构成;Bottleneck将输入特征经过卷积核大小1×1的卷积层,再经过卷积核大小3×3的卷积层,再将输入特征与之相加;如公式二所示,其中FBottleneck是Bottleneck模块的输出,FBottleneck_in是Bottleneck模块的输入特征,Conv3×3是卷积核大小3×3的卷积层,Conv1×1是卷积核大小1×1的卷积层; FBottleneck=FBottleneck_in+Conv3×3Conv1×1FBottleneck_in 公式二; CSP将原输入分成两个分支,分别进行卷积操作使得通道数减半,然后一个分支进行Bottleneck×N操作,其中N为自定义参数,然后Concat两个分支,使得BottlenneckCSP的输入与输出是一样的大小;如公式三所示: FConcat=ConcatN×BottleneckConv1×1Fin_c2_1,Conv3×3Fin_c2_2公式三; 其中FConcat是两个分支Concat的结果,Concat是特征拼接操作,Bottleneck指代公式二的运算,Fin_c2_1和Fin_c2_2代表输入特征的两个分支,通道数是原输入特征的一半; 再将FConcat经过批归一化层BN、LekyReLU激活函数和Conv1×1得到BottlenneckCSP的输出FBottleneckCSP,如公式四所示: FBottleneckCSP=Conv1×1LekyReLUBNFConcat 公式四; 步骤S22:将经过Conv模块和BottleneckCSP下采样32倍的特征输入到SPP空间金字塔池化层模块中,将不同尺寸的特征图进行最大池化操作,再池化后的特征拼接,作为特征提取器的输出;如公式五所示: FSPP_out=DeformableConvConcatFSPP_in,Maxpooling13×13FSPP_in, Maxpooling9×9FSPP_in,MaxPooling5×5FSPP_in 公式五; 其中FSPP_in是SPP模块的输入特征,FSPP_out是SPP模块的输出,Maxpooling13×13,MaxPooling9×9,MaxPooling5×5分别代表采样核大小为13×13,9×9,5×5的最大池化层,DeformableConv为形变卷积模块; 步骤S3具体包括以下步骤; 步骤S31:利用Kmeans算法拟合真实文本框的长宽比,将所有真实文本框的比例输入到Kmeans中,以聚类出多个锚框的长宽比; 步骤S32:利用特征提取器提取的特征对锚框与真实文本框的偏差进行预测;首先将特征经过1×7长卷积网络,用于提取适合长文本的语义特征;再将处理后的特征分为gridn×gridn个网格,gridn为自定义参数;网络将预测四个偏移量tx1,ty1,th1,tw1,计算方法如公式六、公式七、公式八、公式九所示: tx1=logbboxx2-cx31-bboxx2-cx3公式六; ty1=logbboxy2-cy31-bboxy2-cy3公式七; th1=loggth4ph5公式八; tw1=loggtw4pw5公式九; 其中bboxx2,bboxy2分别代表真实文本框的中心点横纵坐标;cx3,cy3代表真实文本框对应的网格的左上角横纵坐标;gth4,gtw4代表真实文本框的高和宽;ph5,pw5代表锚框的高和宽;网络通过预测这4个偏移量进而预测文本框的位置。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人福州大学,其通讯地址为:350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。