买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本申请提供基于OCR和大模型结构化PDF文件的方法,其包括:遍历所述PDF文件中的单页PDF,并基于OCR模型对所述单页PDF进行版面分析和内容识别,确定出所述单页PDF的嵌入式图片、所有的纯文本块;基于多模态大预言模型对所述嵌入式图片进行增强处理以针对性的生成增强文本内容;计算所述增强文本内容与所述纯文本块之间的位置关联关系;对所述嵌入式图片及对应的所述增强文本内容、所述纯文本块及对应的文本内容分别进行向量化,得到嵌入式图片描述向量以及纯文本块描述向量;基于所述嵌入式图片描述向量、所述位置关联关系、所述纯文本块描述向量,生成所述单页PD的结构化数据;基于所述PDF文件中的所有页PDF的结构化数据,生成所述PDF文件的结构化数据。
主权项:1.一种基于OCR和大模型结构化PDF文件的方法,其特征在于,包括:遍历所述PDF文件中的单页PDF,并基于OCR模型对所述单页PDF进行版面分析和内容识别,确定出所述单页PDF的嵌入式图片、所有的纯文本块;基于多模态大预言模型对所述嵌入式图片进行增强处理以针对性的生成增强文本内容;计算所述增强文本内容与所述纯文本块之间的位置关联关系;对所述嵌入式图片及对应的所述增强文本内容、所述纯文本块及对应的文本内容分别进行向量化,得到嵌入式图片描述向量以及纯文本块描述向量;基于所述嵌入式图片描述向量、所述位置关联关系、所述纯文本块描述向量,生成所述单页PD的结构化数据;基于所述PDF文件中的所有页PDF的结构化数据,生成所述PDF文件的结构化数据。
全文数据:
权利要求:
百度查询: 爱动超越人工智能科技(北京)有限责任公司 基于OCR和大模型结构化PDF文件的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。