Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于编解码的数学公式识别方法及装置、可读存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京邮电大学

摘要:本发明提出基于编解码的数学公式识别方法及装置、可读存储介质,输入图片通过ResNet网络和位置编码模块进行特征的编码,紧接着使用多头注意力模型及前向网络的组合对特征序列进行解码计算实现预测避免了单字符切割和识别的步骤,能够从手写数学公式的整体信息中学习到字符间的空间关系,最终完成整个手写数学公式的识别。本发明的有益效果为:本方法编码模块中通过在ResNet网络的输出中添加位置信息,使得编码模块能够更准确地学习到公式图片的特征信息;解码模块中,不同于使用循环神经网络的方法,本方法通过使用多头注意力模型来进行并行化计算,使得运行速度得到了明显的改进。

主权项:1.一种基于编解码的数学公式识别方法,其特征在于,所述方法的步骤如下:步骤1、选取只含手写数学公式的图片作为样本,将输入图片进行裁剪和灰度化操作;步骤2、将调整后的图片输入编码网络得到特征序列;所述编码网络由改进的ResNet卷积网络和位置编码融合而成,其中改进的ResNet卷积网络采用ResNet18,包括卷积层和线性网络,卷积层输出为512×8×8的特征序列,经过线性网络处理后,得到维度为210×8×8的特征序列x;之后将特征序列x经过位置编码模块计算,附加各个序列的绝对位置信息,得到最终的特征序列F,即解码网络的输入序列;步骤3、通过解码网络对图像特征进行解码及字符预测;解码网络由4个子网络及全连接网络组成,每个子网络包含一个多头自注意力网络和一个前向网络;每一层的子网络的输入都为210×8×8的序列,其中多头自注意力网络对序列进行相互间关系的并行运算,结果输出至前向网络,前向网络经过同维度转换之后传递到下一层的子网络;解码网络的最终结果由全连接网络计算得出,维度为210×dvoc,其中dvoc为预测字符所属的集合长度;步骤4、通过L-softmax损失函数计算字符预测结果与正确值之间的损失,对预测结果进行评价。

全文数据:

权利要求:

百度查询: 南京邮电大学 基于编解码的数学公式识别方法及装置、可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。