买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广州万彩信息技术有限公司
摘要:本发明公开了一种基于PDF的信息处理方法、系统和存储介质,该方法包括以下步骤:获取PDF文件;响应于针对PDF文件的转换请求,对PDF文件的每一页进行页处理转换,以得到与PDF文件对应的第一目标素材信息和第二目标素材信息;响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合。本发明通过确定第一文段联系信息以识别第一块区,通过确定第二文段联系信息以识别第二块区,进而实现以一种更简单的方式完成对PDF文件的反解效果,提高了基于PDF文件的文章反解的效率,为需要对PDF文件文章反解的用户而言,便于后续继续完成编辑发布的工作。
主权项:1.一种基于PDF的信息处理方法,其特征在于,所述方法包括以下步骤:获取PDF文件;响应于针对所述PDF文件的转换请求,对所述PDF文件的每一页进行页处理转换,以得到与所述PDF文件对应的第一目标素材信息和第二目标素材信息;响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合,通过对所述目标空间识别成块、成行、成段以形成反解文本内容;所述触发条件包括点击行为;在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,包括:响应于操作焦点的所述点击行为,确定第一文段联系信息以识别第一块区;对所述第一块区对应的第一目标素材信息、第二目标素材信息进行内容整合;其中,在响应于操作焦点的触发条件以对目标空间对应的第一目标素材信息和第二目标素材信息进行内容整合中,还包括:当通过操作焦点的多次所述点击行为产生多个第一块区时,确定多个第一文段联系信息,每个第一文段联系信息用于识别其点击行为对应的第一块区;当两个第一块区在内容上具有上下文关联且在所述PDF文件中的位置区域为隔断关系时,则标记为跨块状态;确定第三文段联系信息以对标记为跨块状态的第一区块建立内容关联;根据所述第三文段联系信息对所述多个第一块区对应的第一目标素材信息和第二目标素材信息进行内容整合;其中所述第一文段联系信息为字符和字符间的距离,所述第一块区为根据所述字符和字符间的距离使得字符与字符之间识别成块得到,所述第三文段联系信息包括行位置和行间距,根据所述行位置和行间距使得行与行之间识别成段,以完成对标记为跨块状态的第一区块建立内容关联。
全文数据:
权利要求:
百度查询: 广州万彩信息技术有限公司 一种基于PDF的信息处理方法、系统和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。