恭喜中国医学科学院医学信息研究所李晓瑛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国医学科学院医学信息研究所申请的专利一种文档文件的表格识别方法及相关装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119445601B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510016587.3,技术领域涉及:G06V30/412;该发明授权一种文档文件的表格识别方法及相关装置是由李晓瑛;唐小利;李永洁;孙轶楠;门佩璇设计研发完成,并于2025-01-06向国家知识产权局提交的专利申请。
本一种文档文件的表格识别方法及相关装置在说明书摘要公布了:本申请公开一种文档文件的表格识别方法及相关装置,涉及计算机应用与人工智能领域,所述方法包括:将待处理文档文件的页面转换成第一图像;对第一图像进行图像增强得到第二图像;利用目标智能体对第二图像进行表格检测,得到表格区域位置信息;目标智能体包括基于双支路模型调优构建的表格检测模型,目标智能体的第一支路用于学习与提取表格的结构性特征,第二支路用于学习与提取表格的文本语义特征;识别所述表格区域位置信息所指示表格区域中的表格数据,并将表格数据转换为结构化形式进行输出。本申请通过在表格识别中结合使用图像增强处理和基于深度学习的双支路模型调优等技术,可实现对文档文件进行高精度、高效率、高适应性的表格识别。
本发明授权一种文档文件的表格识别方法及相关装置在权利要求书中公布了:1.一种文档文件的表格识别方法,其特征在于,包括:将待处理文档文件的页面转换成第一图像;对所述第一图像进行图像增强处理,得到第二图像;所述图像增强处理至少用于对所述第一图像进行角度校正;利用目标智能体对所述第二图像进行表格检测,得到所述第二图像中表格的表格区域位置信息;所述目标智能体为基于深度学习的双支路模型调优构建的表格检测模型;所述目标智能体的第一支路用于学习与提取表格的结构性特征,所述目标智能体的第二支路用于学习与提取表格的文本语义特征,所述第一支路和所述第二支路是并行的;识别所述表格区域位置信息所指示表格区域中的表格数据,并将识别出的表格数据转换为结构化形式进行输出;其中,所述目标智能体的构建过程,包括下列中的至少部分:通过迁移学习,为所述第一支路上的第一深度学习模型和所述第二支路上的第二深度学习模型提供预训练的模型权重;其中,为所述第一深度学习模型提供的预训练模型权重用于提取表格的结构性特征,为所述第二深度学习模型提供的预训练模型权重用于提取表格的文本语义特征;利用小样本分别对迁移学习后的所述第一深度学习模型和所述第二深度学习模型进行调优;对所述小样本进行数据增强,利用数据增强后所得的增强样本分别对迁移学习后的所述第一深度学习模型和所述第二深度学习模型进行调优;其中,调优过程中,所述第一深度学习模型和所述第二深度学习模型能够在各自所处支路上进行独立优化,并能够共享表格信息和特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国医学科学院医学信息研究所,其通讯地址为:100020 北京市朝阳区雅宝路3号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。