恭喜杭州微宏科技有限公司王民获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜杭州微宏科技有限公司申请的专利用于文档内容识别和智能段落章节拆解的方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119598974B 。
龙图腾网通过国家知识产权局官网在2025-04-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510142591.4,技术领域涉及:G06F40/117;该发明授权用于文档内容识别和智能段落章节拆解的方法及系统是由王民;韩彤;俞哲峰设计研发完成,并于2025-02-10向国家知识产权局提交的专利申请。
本用于文档内容识别和智能段落章节拆解的方法及系统在说明书摘要公布了:本发明属于数据处理技术领域,具体涉及用于文档内容识别和智能段落章节拆解的方法及系统。方法包括:S1,将PDF文档拆分成页,并转换成图片;S2,对拆分后的PDF页进行DOM结构分析,获得文本字符集合;S3,对PDF页图片进行版面分析,获得版面区域集合;S4,将得到的文本字符集合和版面区域集合,聚合成字符分块;S5,对字符分块进行阅读顺序恢复操作;S6,定义标题匹配模式集合;S7,遍历分块序列的行序列,通过对比算法,得到目录之间的层级关系;S8,输出结构化的内容块结果;S9,将PDF页图片和内容块坐标进行可视化显示,用户绘制新的坐标区域,根据提供的坐标区域信息进行二次拆解。
本发明授权用于文档内容识别和智能段落章节拆解的方法及系统在权利要求书中公布了:1.用于文档内容识别和智能段落章节拆解的方法,其特征在于,包括如下步骤;S1,将PDF文档拆分成页,并将每页的内容转换成图片;S2,对拆分后的PDF页进行DOM结构分析,获得文本字符集合;S3,对PDF页图片进行版面分析,获得版面区域集合;S4,将步骤S2得到的文本字符集合和步骤S3得到的版面区域集合,聚合成字符分块;S5,对字符分块进行阅读顺序恢复操作,具体指:对字符分块进行重整,进行拆分或者合并;再对字符分块进行排序,得到有序分块序列;在各字符分块内部,字符聚合成文本行,得到有序行序列;S6,定义标题匹配模式集合,用于目录树的标题匹配和层级生成;S7,遍历分块序列的行序列,将文本行和标题匹配模式集合进行比较和分析,为匹配的行打上目录标记,通过对比算法,得到目录之间的层级关系;S8,遍历分块序列的行序列,按顺序对文本进行合并,根据步骤S3分析的结果,区分图片区域、表格区域和文本区域,生成三种类型的内容块,再根据步骤S7的标记结果划分段落,并输出结构化的内容块结果;S9,将PDF页图片和内容块坐标进行可视化显示,用户绘制新的坐标区域,根据提供的坐标区域信息进行二次拆解;在二次拆解时,恢复步骤S5所在的上下文信息,将步骤S2得到的文本字符集合根据步骤S9得到的坐标区域进行字符分块,然后重复步骤S5至步骤S9过程。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州微宏科技有限公司,其通讯地址为:310020 浙江省杭州市上城区城星路69号中天国开大厦9F;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。