南京大学任桐炜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京大学申请的专利一种基于几何先验和知识图谱的自然场景文本识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114821609B 。
龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210497442.6,技术领域涉及:G06V30/412;该发明授权一种基于几何先验和知识图谱的自然场景文本识别方法是由任桐炜;武港山;田鑫设计研发完成,并于2022-05-09向国家知识产权局提交的专利申请。
本一种基于几何先验和知识图谱的自然场景文本识别方法在说明书摘要公布了:一种基于几何先验和知识图谱的自然场景文本识别方法,采集领域场景文本图像,检测并裁出文本行图像,通过基于几何先验的形变矫正模型进行特征提取和柱状形变矫正;对矫正图通过基于注意力机制的视觉识别模块感知每个字符得到字符级别的对齐视觉纹理特征;再通过基于领域知识图谱的的全局语义推理模块引入场景领域知识,感知上下文信息,并编码高层语义特征;最后综合视觉和语义模块的输出得到文本识别结果。本发明可迁移应用于自控仪表、装备制造、数控机床、汽车制造、轨道交通等不同面向领域的自然场景文本识别,解决传统文本识别技术在自然场景中因柱面文本形变和缺乏相关词典而识别准确率不高的问题,实现对领域文本更精准的识别。
本发明授权一种基于几何先验和知识图谱的自然场景文本识别方法在权利要求书中公布了:1.一种基于几何先验和知识图谱的自然场景文本识别方法,其特征是采集领域场景文本图像,所述领域指识别所要应用的场景领域,文本具有柱面弯曲,使用文本检测算法处理图像得到所有文本行的区域,裁出得到文本行图像,接着将文本行图像输入基于几何先验的形变矫正模型进行特征提取和柱状形变矫正,得到矫正图;将矫正图送入识别网络中,通过基于注意力机制的视觉识别模块感知每个字符需要关注的关键空间区域,并得到字符级别的对齐视觉纹理特征,再通过基于知识图谱的的全局语义推理模块来引入场景领域知识,感知上下文信息,并编码抽象的高层语义特征;最后综合视觉和语义模块的输出得到文本识别结果;其中, 基于几何先验的形变矫正模型进行特征提取和柱状形变矫正具体为: 1.1通过ResNet对输入图片进行特征提取,将观察到的柱面文字所发生的形变用柱面正投影法来表示,具体是指将圆柱切平面上某个的区域映射到柱状表面的方法,再将提取出的特征传入全连接神经网络回归得柱面投影的三个参数cx,cy和半径r,其中,cx,cy是切平面文本区域左上角顶点相对于观察点原点的坐标值,用来表征观察方向和透视情况,r是指圆柱的半径,用来表征弯曲的程度; 1.2根据步骤1.1中得到的形变参数进一步计算图片中每一个像素x,y的重映射坐标值x’,y’,具体计算公式为: 1.3根据步骤1.2中得到的重映射公式,将柱面投影定义成一种可微的操作,使网络得以进行反向传播,将网络输入图像称为S,将经过基于几何先验的形变矫正器目标图像称为T,柱面投影变换定义为ρcx,cy,r,输入图像S上的原坐标是xS,yS,目标图像T上的目标坐标是xT,yT,形变矫正过程定义为: 1.4通过双线性插值法将输入图片按照重映射坐标来进行像素值采集,通过重映射来完成柱面形变图像的矫正; 基于知识图谱的全局语义推理模块具体为: 2.1构建对应领域的知识图谱本体,再将知识图谱本体转化为无向图K的形式,便于知识图谱与神经网络进行结合,K的具体定义为: 其中,表示结点数,na代表第la个位置的字符类别为ca,每条边用来编码两个结点之间的一种知识; 2.2将输入的特征图通过全连接层和softmax层得到初步的类别分布概率P,并使用交叉熵损失计算的Lp来使其更专注于目标字符: 其中,N表示文本的长度,yt表示第t个字符的真值,pt表示第t个字符的分布概率,p表示条件概率函数; 2.3将包含领域知识的无向图K与类别分布概率图P进行矩阵相乘得到高层上下文特征,与原结果P进行拼接后得到含有视觉信息和依赖于先验知识的语义信息的增强特征Q,输入神经网络拟合模型,并使用交叉熵损失计算的Lq进行监督: 其中,qt表示第t个字符的增强特征; 2.4将2.3中得到的结果进行embedding后送入transformerencoder重新编码,进行不依赖于先验知识的语义信息学习,通过堆叠的多层transformer单元隐示建模一阶关系和高阶语义关系,最后输出时间步级别的上下文特征M,同时加入推理损失Lm,定义为: 其中,mt表示第t个字符的上下文特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210093 江苏省南京市鼓楼区汉口路22号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。