Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于图数据库和向量数据库的数据处理和存储方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浙江工商大学;衢州光明电力投资集团有限公司赋腾科技分公司

摘要:本发明公开了一种基于图数据库和向量数据库的数据处理和存储方法及装置。基于图数据库和向量数据库,结合LayoutLMv3模型、Transformer模型与OCR技术,旨在高效地解析、存储和检索非结构化文档。本发明首先将文档转换为图像,使用布局分析模型LayoutLMv3模型识别图像中的文本、图像、表格几类区域,然后使用三类解析器分析包含数据的区域,特别的,由于表格数据结构的复杂性,使用表格分析模型将表格转为文本表示,最后,将所得到的所有数据进行结构化分割,分别保存在图数据库和向量数据库中,以实现对数据检索的高准确性和高效率性,为大数据分析和大语言模型应用提供了强大的支持。

主权项:1.一种基于图数据库和向量数据库的数据处理和存储方法,其特征在于,该方法包括以下步骤:步骤1:识别文档布局以及进行表格格式转换,将识别后的内容转换成Markdown格式并存储;步骤2:基于大语言模型提取Markdown格式文件中文档的主题、参考文件和附录关键信息;步骤3:将Markdown格式文件转换为非机构化数据,进行数据块划分存入向量数据库,基于文档的关键信息,构建文档间的关系类型集合,生成可视化知识图谱。

全文数据:

权利要求:

百度查询: 浙江工商大学 衢州光明电力投资集团有限公司赋腾科技分公司 基于图数据库和向量数据库的数据处理和存储方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。