恭喜四川医枢科技有限责任公司王明辉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜四川医枢科技有限责任公司申请的专利文档内容分类方法、系统、装置及计算机可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114863408B 。
龙图腾网通过国家知识产权局官网在2025-06-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202110648550.4,技术领域涉及:G06V20/62;该发明授权文档内容分类方法、系统、装置及计算机可读存储介质是由王明辉;闾磊;高阳;黄甫毅;樊淼淼设计研发完成,并于2021-06-10向国家知识产权局提交的专利申请。
本文档内容分类方法、系统、装置及计算机可读存储介质在说明书摘要公布了:本申请公开了一种文档内容分类方法、系统、装置及计算机可读存储介质,包括:将所述文档转换为图片格式,得到与所述目标文档对应的目标图片;利用预设的文档内容分类模型,从所述目标图片中提取内容特征,根据内容特征对所述目标图片进行区域划分,得到多个待排序的分割区域;利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型进行排序,得到多个文本顺序正确的文本区域;将各个文本区域重新排序,得到重组后的文档。本申请过图像识别按照类别将文档划分为多个区域,每个区域单独进行排版,使的排版更为灵活,区域之间的错误不严重影响整体,最后进行整体排序,得到完整的文档。
本发明授权文档内容分类方法、系统、装置及计算机可读存储介质在权利要求书中公布了:1.一种文档内容分类方法,其特征在于,包括: 获取目标文档,将所述文档转换为图片格式,得到与所述目标文档对应的目标图片; 利用预设的文档内容分类模型,按照预设的分类标准,从所述目标图片中提取内容特征,根据内容特征对所述目标图片进行区域划分,得到多个待排序的分割区域,所述文档内容分类模型采用ResNet+FPN作为骨干网络,对ResNet网络中每一个ResBlock结构生成的FeatureMap先融合通道注意力模型,再融合空间注意力模型,得到了由整个骨干网络生成的融合了注意力机制的FeatureMap,所述分类标准包括:文本、标题、表格体、表格标题、表格注释、列表、图像、注释、页眉和页脚; 利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的布局规则进行排序,得到多个文本顺序正确的文本区域; 其中,所述利用预设的文档布局分析模型,提取各个分割区域的文本类型,并根据各个分割区域的文本类型,对各个分割区域内的文本顺序按照预设的布局规则进行排序,得到多个文本顺序正确的文本区域,包括:利用文档布局分析模型分析出分割区域的文本类型;利用分割区域的文本类型,计算出与分割区域相应的BoundingBox坐标区域;利用BoundingBox坐标区域的宽度与相应的分割区域的宽度确定分割区域的排序纵向排序顺序;利用BoundingBox坐标区域的高度,判断分割区域中的文本间距; 利用各个文本区域的内容特征和文本顺序,将各个文本区域重新排序,得到重组后的文档; 其中,所述文档内容分类模型为预先根据预设的所述分类标准,对历史图片进行分割训练得到的;所述文档布局分析模型为预先根据预设的所述布局规则,对历史图片进行布局训练得到的。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人四川医枢科技有限责任公司,其通讯地址为:610041 四川省成都市成都高新区府城大道西段399号6栋1单元7层6、7号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。