恭喜华东师范大学付英男获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜华东师范大学申请的专利一种基于动态特征提取的结构化图片内容识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115019319B 。
龙图腾网通过国家知识产权局官网在2025-05-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210415242.1,技术领域涉及:G06V30/19;该发明授权一种基于动态特征提取的结构化图片内容识别方法是由付英男;高明设计研发完成,并于2022-04-20向国家知识产权局提交的专利申请。
本一种基于动态特征提取的结构化图片内容识别方法在说明书摘要公布了:本发明公开了一种基于动态特征选择的结构化图片内容识别方法,其特点是采用动态特征选择机制,从大尺寸特征图中选择部分有用的特征向量以去除特征图中的冗余特征,对其进行动态偏移,并将相对位置编码和位置环境信息引入到空间关系编码器中,提取更复杂的字符空间关系,具体包括:1)细粒度视觉特征提取;2)动态特征选择;3)空间关系提取;4)文本解码;5)模型训练等步骤。本发明与现有技术相比具有方法简便,准确率高,不但减小了空间关系编码器的计算开销,还增强了模型的泛化能力,进一步提升了结构化图像内容识别的准确,应用前景良好。
本发明授权一种基于动态特征提取的结构化图片内容识别方法在权利要求书中公布了:1.一种基于动态特征选择的结构化图片内容识别方法,其特征在于采用动态特征选择机制,从大尺寸特征图中选择部分有用的特征向量以去除特征图中的冗余特征,对其进行动态偏移,并将相对位置编码和位置环境信息引入到空间关系编码器中,提取更复杂的字符空间关系,结构化图片内容的识别具体包括如下步骤:一、细粒度视觉特征提取使用小感受野的卷积神经网络提取输入结构化图像的细粒度视觉特征,计算特征图中特征向量的绝对位置编码,将绝对位置编码与细粒度视觉特征进行融合;所述细粒度视觉特征提取具体步骤如下:步骤1:使用带小感受野的卷积神经网络,对输入图像进行编码,得到下述a式表示的特征图V:V={vi,j|i=1,...,H;j=1...,W}a;其中:H和W分别是特征图的高度和宽度;步骤2:使用两个嵌入矩阵,将每个特征向量vi,j的行、列坐标i和j分别编码为两个d2维的位置向量,对其拼接后得到d维绝对位置编码向量pi,j;步骤3:把vi,j和pi,j进行相加,得到下述b式表示的细粒度特征集合E: 其中,ei,j=vi,j+pi,j;二、动态特征选择使用全连接神经网络判断细粒度视觉特征中每一个特征向量代表的字符类型,定义可用于进行特征选择的损失函数,设定选择特征的比例参数,确定特征图中有效特征的坐标;定义动态偏移分布,将被选择的坐标根据分布进行动态偏移,得到最终的特征向量;所述动态特征选择具体步骤如下:步骤4:用全连接神经网络,对ei,j进行字符预测,得到字符预测的概率分布ai,j;步骤5:按字符类别将所有特征向量预测的概率分布由下述c式做累加并归一化: 其中,k表示第k个字符;步骤6:将每张图片标签中出现的字符按字符类别统计出现的次数,并由下述d式将其进行归一化: 其中,k表示第k个字符;步骤7:由下述e式计算特征选择loss: 其中:α是被选择特征占全体特征的比例;∈表示background的类型;C是词典中所有字符的个数;步骤8:选择被预测为非背景类型的特征向量,并由下述f式记录它们的坐标值集合Aloc:Aloc={h1,w1,h2,w2,...,hm,wm}f;步骤9:定义坐标i,j为中心点的概率分布pi,j,按照pi,j进行采样,并由下述g~h式得到i,j坐标的偏移坐标: 步骤10:按照步骤9得到的偏移坐标,将步骤3得到的集合E中的向量取出,得到由下述i式表示的被选择特征集合A: 三、空间关系提取在被选择的特征中,计算每一对特征向量在完整特征图中的相对位置编码,计算每一个特征向量在完整特征图中的位置环境信息,使用融合了相对位置编码和位置环境信息的空间关系提取器提取特征向量之间的空间关系;所述空间关系提取具体步骤为:步骤11:计算集合A中每一对特征向量坐标的行、列相对位置,并使用两个嵌入矩阵对行、列相对位置进行编码;步骤12:定义一个和原始特征图大小一致的掩码矩阵,将集合A中向量坐标的位置记为1,其他位置记为0;步骤13:使用卷积神经网络对掩码矩阵进行编码,输出和掩码矩阵大小相等的位置环境信息特征图,并按照A中特征向量的坐标在特征图中选择出对应的向量,得到下述j式表示的位置环境信息集合S:S={s1,s2,...,sm}j;其中,si是ai对应的位置环境信息;步骤14:由下述k式定义融合了相对位置编码和位置环境信息的注意力机制: 步骤15:使用背景模型,并用步骤14定义的注意力机制替换背景中的原始注意力机制,为步骤10中的A集合编码,输出得到下述l式表示的集合U:U={u1,u2,...,um}l;四、文本解码使用用于文本生成的解码模型,解码得到结构化图像内容的文本序列;五、模型训练使用优化器对动态特征选择步骤中的损失函数进行训练,更新相关的部分参数,然后定义总损失函数,并使用优化器对全部参数进行更新,得到结构化图片内容的文本序列。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人华东师范大学,其通讯地址为:200241 上海市闵行区东川路500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。