首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种报销单据图像文本信息校准与提取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深圳市迪博企业风险管理技术有限公司

摘要:一种报销单据图像文本信息校准与提取方法,该方法包括:1报销单据图像噪声过滤方法。该方法基于OTSU阈值分割和EDT距离变换的图像预处理算法,对报销单据图像中存在的印章、墨点和皱褶等噪声进行过滤,并将过滤后的图像作为图像文本信息校准模块的输入。2报销图像文本信息校准方法。该方法采用最大连通域算法从报销单据图像中提取用户信息连通域,并根据用户信息与单据字段的对应关系构建相关性矩阵,标记并表示报销单据用户信息与模板字段连通域关联性;通过随机旋转、缩放、高斯噪声等扰动处理进行数据增强,采用SSD网络训练报销图像文本信息校准模型;采用Tesseract识别单据连通域中的光学字符信息,实现报销单据图像文本信息的校准与提取。

主权项:1.一种报销单据图像文本信息校准与提取方法,其特征在于,包括:1报销单据图像噪声过滤方法,该方法基于OTSU阈值分割和EDT距离变换的图像预处理算法,对报销单据图像中存在的印章、墨点和皱褶噪声进行过滤,并将过滤后的图像作为图像文本信息校准模块的输入;2报销图像文本信息校准方法,包括:构建目标连通域标记训练集,由多种常用模板生成单据图像数据,每个单据图像包含多个字段及其坐标标注,字段对应用户信息,包含单据ID、日期、地址、用户信息,采用最大连通域算法从报销单据图像中提取用户信息连通域,并根据用户信息与单据字段的对应关系构建相关性矩阵,标记并表示报销单据用户信息与模板字段连通域关联性,其中用户信息与模板字段对应连通域的相关性设置为1,非对应连通域相关性设置为0,生成大量对应连通域坐标、相关性标注作为文本信息校准模型的训练集;将训练集中图像通过随机旋转、缩放、高斯噪声和裁剪扰动处理,进行数据增强,以减少过拟合,提高模型校准的准确率;采用SSD网络训练报销图像文本信息校准模型,SSD网络输入为从报销单据图像中提取的经噪声过滤后的用户信息和模板字段连通域图像两张图像,均采用双线性插值算法缩放至256x256尺寸,并进行min-max归一化处理;SSD网络输出包括待检测的n个候选连通域坐标,n表示连通域数量,以及候选连通域之间的n*n相关性矩阵,候选连通域利用SmoothL1Loss损失函数进行回归训练;SSD网络对n个连通域提取n个特征图,通过加入相关性提取器,对用户信息与模板字段进行对齐校准处理,SSD网络架构包括两个分支:一个分支为相关性提取器,用于计算用户信息与模板字段连通域之间的相关性系数,输入为两两配对的n*n个连通域图像,输出一个n*n的相关性矩阵M,其含义为每一对用户信息和模板字段连通域匹配的概率;另一个分支通过全连接层连接输出层,输出文本框位置以中心点-宽高x,y,w,h;待模型SSD网络训练收敛后,在输出的相关性矩阵M中选择这n列中相关性概率值最大的n个值,即为n组用户信息与模板字段连通域的匹配对齐关系;将n个用户信息连通域位置x,y,w,h从报销单据原图中切割出矩形框局部图像,分别输入Tesseract模型中识别其中的光学字符信息,将识别出的文本信息与电子单据中的对应信息进行校准。

全文数据:

权利要求:

百度查询: 深圳市迪博企业风险管理技术有限公司 一种报销单据图像文本信息校准与提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。