成都华栖云科技有限公司蒋文获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉成都华栖云科技有限公司申请的专利PDF文档内容处理方法、装置、设备、存储介质及程序产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120930593B 。
龙图腾网通过国家知识产权局官网在2025-12-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511468366.6,技术领域涉及:G06F40/12;该发明授权PDF文档内容处理方法、装置、设备、存储介质及程序产品是由蒋文;颜涛;张汨;姜铼;袁官锐;施赛龙设计研发完成,并于2025-10-15向国家知识产权局提交的专利申请。
本PDF文档内容处理方法、装置、设备、存储介质及程序产品在说明书摘要公布了:本申请公开了一种PDF文档内容处理方法、装置、设备、存储介质及程序产品,涉及文档结构化处理技术领域,方法包括:获取PDF文档;对PDF文档进行预处理,获得与PDF文档的各个页面所对应的待处理数据集;基于所有待处理数据集和PDF文档各页面的图像,确定PDF文档各页面的页面类型;基于各目录页对应的待处理数据集和目录页的图像,提取目录页中各标题数据的层级结构关系,构建目录树。基于目录页的标题数据和非目录页的标题数据之间的语义相似度和文本相似度,对目录页的标题数据和非目录页的标题数据进行匹配,根据匹配结果,将内容数据对应填充至目录树的各标题节点下,获得PDF文档的结构化表示结果。本申请提升了PDF文档的语义还原度和结构化质量。
本发明授权PDF文档内容处理方法、装置、设备、存储介质及程序产品在权利要求书中公布了:1.一种PDF文档内容处理方法,其特征在于,所述的方法包括: 获取PDF文档,所述PDF文档包含至少一个页面; 对所述PDF文档进行预处理,获得与所述PDF文档的各个页面所对应的待处理数据集;所述待处理数据集包括标题数据和或内容数据; 基于所有所述待处理数据集和PDF文档各页面的图像,确定所述PDF文档各页面的页面类型;所述页面类型包括目录页和或非目录页; 基于各所述目录页对应的待处理数据集和目录页的图像,提取所述目录页中各标题数据的层级结构关系,构建目录树,所述目录树的节点结构与所述目录页中标题数据的层级结构相对应; 基于所述目录页的标题数据和所述非目录页的标题数据之间的语义相似度和文本相似度,对所述目录页的标题数据和所述非目录页的标题数据进行匹配,根据匹配结果,将所述内容数据对应填充至所述目录树的各标题节点下,获得所述PDF文档的结构化表示结果; 所述基于各所述目录页对应的待处理数据集和目录页的图像,提取所述目录页中各标题数据的层级结构关系,构建目录树的步骤包括: 针对每一个目录页对应的待处理数据集,将所述待处理数据集输入至语言类目录结构提取模型,获得所述目录页的第一目录层级提取结果; 针对每一个PDF文档的目录页,将所述PDF文档的目录页转为图片输入至视觉类目录结构提取模型,获得所述目录页的第二目录层级提取结果; 基于所述目录页的第一目录层级提取结果和第二目录层级提取结果,构建所述目录树; 所述基于所述目录页的第一目录层级提取结果和第二目录层级提取结果,构建所述目录树的步骤包括: 将第一目录层级提取结果和第二目录层级提取结果结合提示词再次输入到语言类大模型中,得到最终的目录层级结构,构建目录树; 所述基于所述目录页的标题数据和所述非目录页的标题数据之间的语义相似度和文本相似度,对所述目录页的标题数据和所述非目录页的标题数据进行匹配的步骤包括: 获取所有所述目录页的标题数据和所有所述非目录页的标题数据,分别构建目录标题列表和正文标题列表; 以目录标题列表中的标题数据顺序为基准,顺序前向遍历所述目录标题列表,针对所述目录标题列表中被遍历到的目录标题数据,依次与正文标题列表中最后一个已匹配的正文标题数据之后的正文标题数据进行强匹配,直至找到符合强匹配条件的第一个正文标题数据或未找到符合所述强匹配条件的正文标题数据;所述强匹配条件基于所述目录标题数据和所述正文标题数据之间的语义相似度、所述目录标题数据和所述正文标题数据之间的文本相似度以及强匹配相似度阈值确定; 在遍历完所有所述目录标题数据后,若存在未匹配到正文标题数据的目录标题数据,则基于弱匹配条件,将所述未匹配到正文标题数据的目录标题数据与未被匹配的正文标题数据进行弱匹配;所述弱匹配条件基于所述目录标题数据和所述正文标题数据之间的语义相似度、所述目录标题数据和所述正文标题数据之间的文本相似度以及弱匹配相似度阈值确定; 获得标题数据匹配表;所述标题数据匹配表中每个目录标题数据至多对应一个正文标题数据且每个正文标题数据只出现一次; 所述弱匹配的步骤包括: 对于弱匹配,在强匹配已经遍历完目录标题列表的基础上,从初步的标题数据匹配表中确定出未匹配的目录标题索引; 根据目录标题索引,确定未匹配的目录标题数据,对于每个未匹配的目录标题数据,确定其匹配范围,其匹配范围由其前一个已匹配的目录标题数据所匹配的正文标题数据作为上界,以及其后一个已匹配的目录标题数据所匹配的正文标题数据作为下界计算得到; 在已确定的上下界内,重新计算未匹配目录标题与正文标题的语义相似度和文本相似度,通过调整相似度阈值进行弱匹配。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都华栖云科技有限公司,其通讯地址为:610000 四川省成都市高新区天府五街200号菁蓉汇4号楼A区9楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励