恭喜武汉数美科技有限公司庞小锋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜武汉数美科技有限公司申请的专利一种深度解析PDF研报的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115146611B 。
龙图腾网通过国家知识产权局官网在2025-04-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210343335.8,技术领域涉及:G06F40/205;该发明授权一种深度解析PDF研报的方法是由庞小锋;廖丹;邓亮设计研发完成,并于2022-04-02向国家知识产权局提交的专利申请。
本一种深度解析PDF研报的方法在说明书摘要公布了:本发明公开了一种深度解析PDF研报的方法,涉及数据处理技术领域,其包括以下步骤:步骤S1.基本解析,读取PDF得到基础元素;所述基础元素包括字符元素、曲线元素、直线元素、图元素和矩形元素;各基础元素的空间范围都采用矩形范围描述,建立坐标轴,确定各基础元素矩形范围的坐标值;步骤S2.基本布局分析,将所有字符元素聚类成文本行,然后通过文本行聚类找到主文本块;步骤S3.复杂聚类分析,在主文本块中准确定位表格范围和曲线图范围;步骤S4.提炼主要文本内容,过滤掉主文本块中位于表格范围和曲线图范围的文本行后,对主文本块中剩余的文本行排序,得到主要文本内容。
本发明授权一种深度解析PDF研报的方法在权利要求书中公布了:1.一种深度解析PDF研报的方法,其特征在于,包括以下步骤:步骤S1.基本解析,读取PDF得到基础元素;所述基础元素包括字符元素、曲线元素、直线元素、图元素和矩形元素;各基础元素的空间范围都采用矩形范围描述,建立坐标轴,确定各基础元素矩形范围的坐标值x0,x1,y0,y1,其中,x0表示横坐标最小值,x1表示横坐标最大值,y0表示纵坐标最小值,y1表示纵坐标最大值;步骤S2.基本布局分析,将所有字符元素聚类成文本行,然后通过文本行聚类找到主文本块;步骤S3.复杂聚类分析,在主文本块中准确定位表格范围和曲线图范围;步骤S4.提炼主要文本内容,过滤掉主文本块中位于表格范围和曲线图范围的文本行后,对主文本块中剩余的文本行排序,得到主要文本内容;步骤S3中,定位表格范围的流程为:步骤S3101.对主文本块的文本行进行排序,采用y逆序优先,x正序;步骤S3102.遍历主文本块的文本行,作为表头单元格;步骤S3103.检查表头单元格是否属于表格范围:如果是则继续步骤S3102的遍历,检查下一个表头单元格;如果否,则继续下一步表格检查;步骤S3104.参照表头单元格,所有其他文本行与其做交叠分析:满足横向交叠条件的文本行组成同列单元格,满足纵向交叠条件的文本行组成同行单元格,满足横向不交叠条件的文本行组成横向不交叠单元格;步骤S3105.检查同行单元格和同列单元格的数量:如果都大于1,继续下一步的表格检查;否则不满足表格条件,继续步骤S3102的遍历,检查下一个表头单元格;步骤S3106.开始查找表格的行:表格行数初始化为0;遍历同列单元格,作为行首单元格;步骤S3107.参照行首单元格,检查横向不交叠单元格中,与行首单元格y方向交叠的单元格的数量,代表此行的列数,如果大于1,则找到新的表格行,表格行数加1;步骤S3108.步骤S3106遍历结束,检查表格行数,如果大于1,则找到表格;否则继续步骤S3102的遍历,检查下一个表头单元格;步骤S3109.表格找到后,计算表格范围,更新表格范围。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人武汉数美科技有限公司,其通讯地址为:430000 湖北省武汉市东湖新技术开发区高新二路22号中国光谷云计算海外高新企业孵化中心1、2号研发办公楼栋1号楼801(自贸区武汉片区);或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。