首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

用于大模型知识增强的工业表格数据识别方法及程序产品 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院工程热物理研究所

摘要:本发明公开了一种用于大模型知识增强的工业复杂表格图像处理方法及程序产品,首先识别和定位工业文件中的表格区域,提取出仅包含表格内容的数据块;然后提取表格边框的横向和竖向框线,推理出所有单元格的坐标,恢复表格结构;接着将识别出的内容与单元格坐标进行匹配,形成“单元格内容+坐标”格式的数据;随后将复杂表格中的合并单元格拆分为最小单元格,进行文本化表示;之后利用大模型对文本化表格中的单元格内容进行分类,区分为键类型或值类型,并存储于向量数据库中;最后通过向量相似度匹配和检索增强生成技术实现与向量数据库中表格数据内容的问答。本发明有效提高了大模型在处理和理解工业复杂表格数据时的效率和准确性。

主权项:1.一种用于大模型知识增强的工业表格的数据识别方法,其特征在于,所述数据识别方法在实施时至少包括以下步骤:SS1.工业表格数据获取:利用文件解析工具从输入的工业文件中识别和定位表格区域,从文件页面中提取出仅包含表格内容的数据块;SS2.工业表格结构获取:利用线条检测算法提取表格边框的所有横向和竖向框线,利用表格边框的横竖框线交点推理出所有单元格的坐标,确认每一个单元格的位置和边界,恢复表格的结构;SS3.工业表格内容获取:根据步骤SS2中获得的单元格坐标,并通过识别表格数据块中的表格内容,按照单元格坐标对识别出的表格内容进行匹配并存储,形成“单元格内容+坐标”格式的组合数据;SS4.工业表格数据文本化:通过延长表格中的横竖框线至表格边界,将原始复杂表格中的合并单元格进行拆分,使其拆分成表格中的最小单元格,以最小单元格的形式对表格数据进行文本化表示;SS5.工业表格数据细粒度表示:利用大模型对文本化表格中的每一个单元格内容进行内容分类以区分单元格内容属于键类型或值类型,通过细粒度键值对的形式表示表格数据,并将其存储进向量数据库中;SS6.工业表格问答检索增强:以包含表格内容的相关领域问题作为输入,所述问题被处理成向量数据的形式,通过向量相似度匹配并结合RAG检索增强生成技术,实现与向量数据库中的表格内容进行问答。

全文数据:

权利要求:

百度查询: 中国科学院工程热物理研究所 用于大模型知识增强的工业表格数据识别方法及程序产品

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。