Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜四川医枢科技有限责任公司邓川获国家专利权

恭喜四川医枢科技有限责任公司邓川获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜四川医枢科技有限责任公司申请的专利一种PDF内容提取方法、装置及设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113807158B

龙图腾网通过国家知识产权局官网在2025-05-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202011406023.4,技术领域涉及:G06V30/416;该发明授权一种PDF内容提取方法、装置及设备是由邓川;闾磊;黄甫毅;高阳;郄蓓蓓;陶鑫鑫设计研发完成,并于2020-12-04向国家知识产权局提交的专利申请。

一种PDF内容提取方法、装置及设备在说明书摘要公布了:本发明公开了一种PDF内容提取方法,通过接收待处理PDF文件;根据所述待处理PDF文件确定PDF正文信息;根据所述PDF正文信息得到PDF内容提取信息。本发明通过对所述待处理PDF文件进行预处理,去除了PDF文件的页眉、页脚及页码等位于PDF文件边缘的格式信息,仅留下所述PDF正文信息,用于后续识别,相比与现有技术,缩小了后续程序要识别的图像大小,同时排除了起辅助阅读,但却不承载内容信息的页面边缘元素,仅留下与内容相关的PDF正文信息,大大提升了后续程序对内容的识别和提取效率,提升了后需内容识别的准确率。本发明同时还提供了一种具有上述有益效果的PDF内容提取装置、设备及计算机可读存储介质。

本发明授权一种PDF内容提取方法、装置及设备在权利要求书中公布了:1.一种PDF内容提取方法,其特征在于,包括:S101:接收待处理PDF文件;S102:根据所述待处理PDF文件确定PDF正文信息;其中,通过所述待处理PDF文件确定所述PDF正文信息,可通过机器学习的方法实现,通过LSTM结构或CNN神经网络训练,实现通过对同一PDF文档中的几页样品页的学习,寻找样品页之间的共性,进而实现自动排除页眉、页脚及页码信息,只留下PDF正文信息;或者,也可根据预设规则直接对PDF页面进行裁剪,将PDF页面上下两端的预设长度的图像裁去,将剩余的图像作为所述PDF正文信息;S103:根据所述PDF正文信息得到PDF内容提取信息;所述PDF正文信息包括正文文本、表格、标题、注释、图像信息,分别对其进行定位分类,并根据分类结果对其进行结构化;使用深度学习算法对PDF的页面布局进行版面分析,即对正文文本、标题、注释、表格、图像信息进行定位分类,根据分类结果对标题、正文文本区域进行文字提取并结构化;根据表格区域的位置,提取表格的元数据对表格进行结构化;PDF页面布局的深度学习模型使用yolov4的模型架构;为了让模型适用于PDF文档,添加一个预处理模块,它通过卷积网络生成目标页面的特征图,通过一个LSTM的结构提取PDF的页面布局风格,这里的布局特点也是用一个特征图进行表示,然后将两个特征图融合,送入yolov4进行计算,得到页面内容的位置及其类别;基于页面的位置信息就能够进行截图,使用OCR相关的深度学习模型进行文字提取;最后根据类别信息进行文本的格式化和表格的格式化;还包括:S201:接收待处理PDF文件;该待处理PDF文,为每一页都转换为图片的PDF文件,其中,同一PDF生成的图片文件可存储在同一路径下;所述图片可经PDFBOX、PYMUPDF开源架构获得;S202:根据所述待处理PDF文件获取样品页面信息;所述样品页面信息为用于提取页面信息特征的页面图片文件,由于同一PDF文件的页眉、页脚非正文内容大致相同,不需要过多页数就能提取到相应的页面信息特征,因此所述样品页面信息为3~4页PDF页面图片的信息,为了方便,都为从首页开始的向后采样,即待处理PDF文件的前N页,N为大于零的正整数,当后续页面不足时能够向前采样;若都不满足,即整个PDF文档都没有N页时,采取尽可能多地获取页面,不足的位置用token或page1替代;token为同page1一样大小的图片对象,其读入的张量元数据为0;S203:根据所述样品页面信息,利用机器学习模型获得页面信息特征图;所述机器学习模型包括计算机深度学习模型或知识引擎计算机技术,其中,可利用所述计算机深度学习模型的卷积神经网络通过所述样品页面信息获得所述页面信息特征图;S204:通过所述待处理PDF文件及所述页面信息特征图确定所述PDF正文信息;将所述待处理PDF文件的每一页的图片文件依次与上述页面信息特征图相乘,得到page_attention_feature_map;page_attention_feature_map的主要作用是将读入的页面原始特征图降维、利用同一PDF的页面布局相关性生成了页面的区域注意力特征图,通过判断注意力分布,确定所述PDF正文信息;S205:根据所述PDF正文信息得到PDF内容提取信息;从所述PDF正文信息提取所述PDF内容提取信息的方法,能够采用预训练的页面布局模型,其模型为yolov4模型;还包括:S301:接收待处理PDF文件;S302:根据所述待处理PDF文件获取样品页面信息;S303:根据所述样品页面信息,利用机器学习模型获得页面信息特征图;S304:通过所述待处理PDF文件及所述页面信息特征图确定所述PDF正文信息;S305:利用所述PDF正文信息,通过预训练的页面布局模型得到待识别区块信息及与所述待识别区块信息对应的类别信息;所述类别信息可看做对所述待识别区块信息的标注,将所述待识别区块信息分类为正文文本区块、图像区块或表格区块;S306:利用所述待识别区块,通过对应的类别信息对应的识别方法,得到所述PDF内容提取信息;在模型训练过程中,数据是不平衡的,而当前任务关注的重点是那些数据量小的类型;为了让模型能更好地学习到这些区域的特征,在损失函数中加入一个影响因子,增大这些类别的学习能力;此模型的损失函数主要分为三部分:边框的损失、分类的损失、置信度的损失;Yolov4的边框损失是使用的CIoU损失,这部分不需要做任何修改;置信度损失,也不需要更改,因为在置信度方面都是置信度越高越好,没有类别之间的差别;要修改的就是分类造成的类别损失;修改后的类别损失函数: ;其中为Φc类别的影响因子; ;是属于类别c的交叉熵损失,乘以一个影响因子就是为了区分不同类别的重要度;还包括:S401:接收待处理PDF文件;S402:根据所述待处理PDF文件获取样品页面信息;S403:根据所述样品页面信息,利用机器学习模型获得页面信息特征图;S404:通过所述待处理PDF文件及所述页面信息特征图确定所述PDF正文信息;S405:利用所述PDF正文信息,通过预训练的页面布局模型得到待识别区块信息及与待识别区块信息对应的类别信息;S406:当所述类别信息为文字块类信息时,获取所述待识别区块的段落开始信息及段落结束信息;使用预训练好的OCR深度学习模型进行文字识别和区域定位,得到类别信息为正文文本的待识别区块;进一步地,将数据整理为json类型数据方便存贮和调用;所述段落开始信息及所述段落结束信息,为匹配文字块的开头与结尾,根据规则判断当前文字块是否是段落开始、段落结束,所述规则可为依据开头是否有首行缩进,最后是否换行规则判断;S407:根据所述段落开始信息、所述段落结束信息及预设的书写顺序信息,确定所述PDF内容提取信息;所述书写顺序信息即为反应文字阅读顺序的信息,自上而下、从左到右的顺序,程序根据预设的书写顺序将多个文字块类信息按其在PDF页面上的位置分布排序,生成正文内容;所述根据所述段落开始信息、所述段落结束信息及预设的书写顺序信息,确定所述PDF内容提取信息包括:获取文字分割线信息;根据所述段落开始信息、所述段落结束信息、所述文字分割线信息及预设的书写顺序信息,确定所述PDF内容提取信息;若存在纵向有文档区域分割的情况,那么通过识别分割、前后文字块的纵向距离特征就能够实现横向跳跃;程序是循环执行不同的文字块匹配工作的,为了让程序能够自适应换列,在规则中添加了一个deadline,若有纵向分割,则将deadline设置为分割的纵向中心线,匹配的下一个文字块必须是deadline之上的;若deadline之上的文字块已经取完则重置deadline=0,一直匹配到当前页面所有目标类型的文字块连接完成,即所有文字块都被匹配了;经过上述步骤,PDF文档的每一页都是满足阅读顺序的,当然,正文文本被横向分隔的文档也同样适用,在检测到文字分割线后,结合各个待识别区块信息的位置、开始信息、结束信息,确定所述待识别区块内文本的排列顺序,存在横向分割线将一页内的正文文本分为左右两部分,则可依据先将左侧文本块按从上到下的顺序提取,再将右侧的文本块按从上到下的顺序提取;使用OCR识别文字这个task也能够放到所述页面布局模型中的head部分,让模型进行区域定位、区域分类的同时进行文字提取;使用多个task的模型更有利于提高模型的性能,而我们需要做的只是加一个文字识别分支和添加文字识别的损失函数;还包括:S501:接收待处理PDF文件;S502:根据所述待处理PDF文件获取样品页面信息;S503:根据所述样品页面信息,利用机器学习模型获得页面信息特征图;S504:通过所述待处理PDF文件及所述页面信息特征图确定所述PDF正文信息;S505:利用所述PDF正文信息,通过预训练的页面布局模型得到待识别区块信息及与所述待识别区块信息对应的类别信息;S506:当所述类别信息为表格类信息时,获取表格数据块坐标信息;S507:根据所述表格数据块信息确定单列横坐标信息;利用所述表格数据块信息,通过特征数为1的均值漂移算法,确定所述单列横坐标信息,其具体操作方法如下:基于聚类算法确定表格的列数;参与聚类的数据为:表格区域的文字块横坐标起点;或者表格区域的文字块横坐标中点;聚类算法主要是根据数据的聚集性进行分类,关于两组数据的选择能够根据如下的规则进行选择:若有大量的文字块左边界对齐,则使用横坐标起点数据集进行聚类;若有大量文字块横坐标中点对齐,则使用对应的数据集进行聚类;上文中的“大量”能够根据对齐的比例阈值进行判定,对齐比例阈值不需要设置的很高,表格数据的列分割明确,使用聚类算法能够将一列数据聚拢,任务本身难度不大;能知道有几列,使用K-means算法,但是对于一个非指定的PDF表格类型,模型必须自适应寻找表格的列数;根据均值漂移算法的思想提出一种在特征数为1的均值漂移算法Mean-models-shift1;均值漂移聚类算法主要是针对多维空间中的样本进行聚类,主要的参数有均值漂移的滑动窗口半径r,这个参数在算法中是辅助寻找均值中心的参数,实际运算中半径的设置并不会对算法结果产生较大影响;在一维特征的情况下,更改相关参数及规则得到Mean-models-shift1算法,包括:1确定一个一维窗口半径r,在样本分布的区间内随机生成最多lenx2个中心点;2对每个中心点生成一个半径为r的滑动窗口开始滑动;每次滑倒一个新的区域,计算滑动窗口内的均值或众数作为新的中心点,并更新为当前滑窗的中心;滑窗内的样本数记为滑窗内的样本密度,则算法总是会将滑窗的中心向密度高的点移动;3当多个窗口重叠时,则保留高密度的滑动窗口;4对窗口进行更新迭代,直到窗口的密度不再发生变化;其中,x为聚类对象,其特征数为1,lenx即为样本量,最后输出对象为聚类后的类别中心;另外,若使用众数models作为新的窗口,则输入的x需要进行预处理,即设置一个阈值,将相近的点进行同一化处理;使用聚类算法求出表格列的标识点,根据聚类结果进行分列,行的区分主要是基于表格行数据是水平对齐的,先对数据按纵坐标进行排序,然后基于规则进行行划分;根据中心点从原始数据中获取当前列的数据块,观察是否存在同一行的数据块,若没有就保持当前的列划分,若同一行存在多个数据块的出现次数大于设定的阈值时就拆分此列,阈值与表格数据的列数相关;S508:根据所述表格数据块坐标信息及所述单列横坐标信息获得单行纵坐标信息;具体地,根据数据块的上边界纵坐标、下边界纵坐标,使用一个软边界误差即可判定当前数据是否为同一行,所述软边界指允许存在一定边界对齐的误差范围,不要求完全对齐;其中,所述上边界纵坐标及所述下边界纵坐标为从所述表格数据块的最上端及最下端分别向上、向下延伸预设距离确定的纵坐标;表格中存在跨行数据块,若某个数据块与当前行没有对齐,但是其上边界大于当前行的下边界,其下边界小于下一行的上边界,即处理两行之间的数据块,标注其为跨行数据块,并标注关联的行的行号信息;可在获得所述单行纵坐标信息后,根据中心点从原始数据中获取当前列的数据块,观察是否存在同一行的数据块,若没有就保持当前的列划分,若同一行存在多个数据块的出现次数大于设定的阈值时就拆分此列,其中,阈值与表格数据的列数相关;S509:根据所述表格数据块坐标信息、所述单列横坐标信息及所述单行纵坐标信息,确定所述PDF内容提取信息;现在的PDF文档排版比较复杂,没有较固定的格式,表格对象在很多学科领域内都在使用三线表,对于无边框表格,目前的表格提取方法都存在很大的问题,主要表现为数据单元划分不准确、列区分很差,识别结果将列合并的情况大概率发;本方法基于横坐标的聚类算法实际上是将数据进行了降维,消除了纵坐标的影响,因为分列主要是横坐标,纵坐标没有影响,所以此操作并没有损失分列任务的信息量,通过横坐标聚类算法得到的表格的列信息更加精准,同时提高了处理效率,此外,由于本方法中不再寻找标定的表格边框,而是直接根据所述表格数据块信息的坐标确定单元格的“软边框”,得到的表格排版与单元格之间的位置关系也更准确。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川医枢科技有限责任公司,其通讯地址为:610000 四川省成都市武侯区南三环路五段69号1栋3单元5楼1号、2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。