Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜山东大学许信顺获国家专利权

恭喜山东大学许信顺获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜山东大学申请的专利基于全局向量的多粒度训练的场景文本识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119314180B

龙图腾网通过国家知识产权局官网在2025-04-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411844886.8,技术领域涉及:G06V30/148;该发明授权基于全局向量的多粒度训练的场景文本识别方法及系统是由许信顺;王一;罗昕;陈振铎设计研发完成,并于2024-12-16向国家知识产权局提交的专利申请。

基于全局向量的多粒度训练的场景文本识别方法及系统在说明书摘要公布了:本发明公开了一种基于全局向量的多粒度训练的场景文本识别方法及系统,涉及场景文本识别技术领域。该方法包括步骤:获取待识别图像,对待识别图像进行裁剪得到包含文本的部分;利用场景文本识别模型对包含文本的部分进行场景识别,得到识别结果,其中,阶段性的对场景文本识别模型进行训练,步骤包括:将训练样本进行预处理,利用编码器将预处理后的样本进行编码,提取包含多粒度信息的全局向量,利用解码器对全局向量进行解码,得到识别结果。本发明能够更好地利用图像不同粒度的信息,从易到难地充分学习图像的信息,对于复杂文本和弯曲文本也能取得较好的效果。

本发明授权基于全局向量的多粒度训练的场景文本识别方法及系统在权利要求书中公布了:1.一种基于全局向量的多粒度训练的场景文本识别方法,其特征在于,包括以下步骤:获取待识别图像,对待识别图像进行裁剪得到包含文本的部分;利用场景文本识别模型对包含文本的部分进行场景识别,得到识别结果,其中,阶段性的对场景文本识别模型进行训练,步骤包括:将训练样本进行预处理,利用编码器将预处理后的样本进行编码,提取包含多粒度信息的全局向量,利用解码器对全局向量进行解码,得到识别结果;使用错误投票的方法将训练样本分为五个难度级别,由易到难进行训练,逐步向训练数据中增加更为困难的数据,从而获得更好的泛化能力,并采用余弦退火加热重启的学习率调度策略用于适配阶段性训练过程;提取包含多粒度信息的全局向量的具体步骤为:采用VisionTransformer模块对图像进行多粒度特征提取,得到多粒度特征;采用全局平均池化层将提取的多粒度特征结合图像的细粒度和全局特征进行整合成为单一向量,作为全局向量;将全局向量与上下文信息进行融合以便解码器进行处理;将全局向量与上下文信息进行融合的具体步骤为:1)利用全局通道感知上下文模块提取上下文信息和上下文位置信息;该模块利用全局上下文信息对输入序列的特征进行加权,动态调整输入序列中每个位置的特征表达,将全局信息扩散到各个位置;全局向量首先经过一个线性层,转换为新的特征表示,再将线性变换后的特征与位置嵌入相加,位置嵌入为输入数据添加位置信息;通过将维度为1×768的全局向量扩展到个维度后,和维度为×768的位置嵌入相加得到输出,公式如下所示: ;其中,为标签的最大长度加一;对添加了位置嵌入后的结果的沿序列长度方向进行全局平均池化,得到全局上下文向量,公式如下所示: ;其中,为全局上下文向量,表示的中的第个令牌;该向量包含整个序列的全局特征;模块中的两层全连接层相当于一个简单的两层感知机结构,通过中间的非线性激活,为网络引入非线性因素,帮助模型学习到更加复杂的特征表达,这个过程表示为: ;其中,为线性层的输出,,为线性层的权重矩阵,,为偏置向量;对线性层的输出应用通过softmax函数后获得上下文权重;使用全局权重进行统一处理,将计算得到的上下文权重应用于输入的每个位置,通过逐元素相乘的方式调整权重,再经过归一化层和线性层,公式如下所示,得到特征: , ;其中,为通过函数后与逐元素相乘后得到的中间参数,为权重矩阵,为偏置向量;2)利用特征融合模块将上下文信息、上下文位置信息以及对应的全局向量进行融合;在训练过程中,上下文信息是经过嵌入层的标签,在测试过程中,使用逐步解码,每个时间步使用之前时间步的输出经过嵌入层作为上下文信息;特征融合模块将上下文信息和上下文的位置信息以及全局通道感知上下文模块的输出进行融合;上下文信息先经过嵌入层再输入到特征融合模块中,对线性层后,再相加,公式如下所示: ;其中,为融合后的特征,为线性层,为上下文信息的嵌入,为位置信息的嵌入。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东大学,其通讯地址为:250000 山东省济南市高新区舜华路1500号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。