一种图片与html源码相结合的网页信息结构化提取方法

导航：龙图腾网> 最新专利技术> 一种图片与html源码相结合的网页信息结构化提取方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中科曙光南京研究院有限公司

摘要：本发明公开了一种图片与html源码相结合的网页信息结构化提取方法，跨模态信息处理技术领域。具体包括：html页面源码预处理，获取预处理数据；搭建html页面图片版面分析模型，获得标题、正文、作者、发布时间、图片在html图片中的像素位置；html图片OCR模型识别，得到相应的文本内容，并按顺序排序形成文本列表；搭建图片相似度模型PICsim；对比html源码解析数据与html图片解析数据，分别输出最终标题、作者、发布时间，最终图片，最终正文。本发明将图片版面信息与html源码内容结合起来，通过分析图片的版面信息，利用文字编辑距离相似度和图片相似度进行判断，提高了对信息的判断和抽取的准确性。

主权项：1.一种图片与html源码相结合的网页信息结构化提取方法，其特征在于，具体步骤包括：步骤S1，html页面源码预处理，获取预处理数据，具体包括：S11、根据html的标签划分html页面源码，按顺序形成列表；S12、采用正则匹配所述标签的内容，将其分为纯URL格式和非URL格式，并将其记为：和S13、将URL的非图片网址过滤，留下图片网址并下载图片，得到html页面源码图片列表，记为：步骤S2，搭建html页面图片版面分析模型，具体包括：S21、利用python库将html页面版面转换为html图片；S22、训练一个针对步骤S21获得的所述html图片的版面分析模型，用以实现输入所述html图片，输出标题、正文、作者、发布时间、图片在所述html图片中的像素位置；S23、训练步骤S22中所获得的所述版面分析模型；S24、将html图片送入到训练后的所述版面分析模型，用以推理，获得标题、正文、作者、发布时间、图片的相关位置；步骤S3，html图片OCR模型识别，采用OCR模型对步骤S2获得的标题、正文、作者、发布时间数据进行文本行的检测与文字识别，得到相应内容，并按顺序排序形成文本列表，记为：OCRtxt＝[Title,Publishtime,Author,Content]；步骤S4，搭建图片相似度模型PICsim，具体包括：S41、将html图片按照像素位置截取图片列表，记为：S42、将步骤S41获得的所述图片列表与html页面源码得到的原图进行标注，训练相似度模型；S43、对图片pic1和pic2，计算其相似度，获得图片列表，公式为：PICsimpic1,pic2＝Psim1,2；步骤S5，对比html源码解析数据与html图片解析数据，获取解析结果，具体包括：S51、将html源码图片列表和图片列表送入图片相似度网络得到相似度矩阵：针对矩阵列表，将每一列的最大值选取出来，当存在num个最大值对应的行一致时，则在这num个最大值中选择最大的值保留行不变，其余num-1则选择次大值对应的行，如果仍存在一致，则继续上述步骤，输出最终图片；S52、将html源码文本列表和html图片通过OCR模型识别得到的标题、作者、发布时间的文本列表OCRtxt＝[Title,Publishtime,Author]，计算编辑距离相似度矩阵，输出最终标题、作者、发布时间，具体公式为：其中Sthi表示Title和htmltxti的编辑距离相似度，Sphi表示Publishtime和htmltxti的编辑距离相似度，Sahi表示Author和htmltxti的编辑距离相似度，选取每一行的最大值对应的列下标记为[Tindex,Pindex,Aindex],则最终选择的标题为发布时间为作者为S53、将html源码文本列表HTMLtxt的剩余向量进行重新拼接，获得html源码拼接文本列表，记为：TogetherHtml，将图片通过OCR模型识别得到的正文列表OCRtxt＝[Content]与html源码拼接文本列表TogetherHtml，计算编辑距离相似度向量，输出最终文本，具体公式为：其中Si为Content和的编辑距离相似度，最终选择相似度最大的下标记为Cindex，则最终选择的正文内容为

全文数据：

权利要求：

百度查询：中科曙光南京研究院有限公司一种图片与html源码相结合的网页信息结构化提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于船舶船身的激光除锈装置及除锈方法

下一篇：电子设备、页面展示方法、交通工具及计算机程序产品

相关技术

一种用于船舶船身的激光除锈装置及除锈方法

电子设备、页面展示方法、交通工具及计算机程序产品

车身总成及车辆

反应器温度控制方法、装置、设备及计算机可读存储介质

用于形成半导体器件的方法和半导体器件

试管图像处理方法、装置、电子设备及存储介质

一种弹体夹紧机构的对中夹紧方法

混动重型车辆的控制方法、动力系统及混动重型车辆

一种基于安全存储机制的安全芯片架构及关键数据读写方法

一种变分量子线路的构造方法、装置、介质及电子装置

一种快捷准确计算债权会议表决结果的方法及其系统

一种面向城市多点爆炸突发事件的应急处置力量分配方法

信息相关技术

信息处理方法、信息处理设备和信息处理系统_索尼集团公司_202380027464.9

信息处理装置、信息处理方法和程序_索尼集团公司_202380028063.5

信息处理装置、信息处理方法和程序_索尼公司_201980048304.6

信息处理装置及信息处理方法_松下电器(美国)知识产权公司_202280093485.6

信息处理装置、信息处理方法和程序_索尼集团公司_202380025190.X

信息输出方法、程序、以及信息输出系统_松下知识产权经营株式会社_202380025962.X

信息处理装置及信息处理方法_欧姆龙株式会社_201980098986.1

信息处理设备、信息处理方法和程序_索尼半导体解决方案公司_202380026854.4

信息处理装置、信息处理方法和程序_索尼公司_201880083778.X

信息处理装置、信息处理方法和程序_索尼集团公司_202080041941.3

网页相关技术

基于多维度特征分析与建模的网页信息提取方法及系统_合肥大智慧财汇数据科技有限公司_202411347462.0

通过原生应用加载网页应用内容的方法、相关装置和介质_深圳市腾讯计算机系统有限公司_202410680448.6

一种网页篡改检测模型的训练、应用方法及装置_北京天融信网络安全技术有限公司_202111506272.5

一种网页防篡改数据加密方法及系统_云尖(北京)软件有限公司_202311787829.6

一种基于网页切换的展示大屏切换控制方法_安徽海螺信息技术工程有限责任公司_202410847040.3

基于朴素贝叶斯的移动端网页内容推送方法及装置_厦门路桥信息股份有限公司_202210187350.8

一种图片与html源码相结合的网页信息结构化提取方法_中科曙光南京研究院有限公司_202410802161.6

一种应用于高速视频流场景的网页端视频流加载方法_浙江中控信息产业股份有限公司_202410949202.4

网页文件解析方法、装置、设备和存储介质_北京华耀科技有限公司_202411320473.X

一种网页设计比对方法及装置_深圳前海微众银行股份有限公司_202411073342.6

相结合相关技术

一种图片与html源码相结合的网页信息结构化提取方法_中科曙光南京研究院有限公司_202410802161.6

一种油墨印刷与热发泡数字喷码技术相结合的荧光增强型图文标识方法_内蒙动力机械研究所_202410873590.2

结合型智能相机_三星显示有限公司_202410468029.6

用于管的无菌结合装置_派克汉尼汾(欧洲、中东和非洲)公司_202410518609.1

模板组合结构和结合组件_润弘精密工程事业股份有限公司_202322994560.0

抗CD137抗原结合分子及其应用_中外制药株式会社_202411151560.7

碱激发矿渣结合料组合物及其应用_中国恩菲工程技术有限公司_202411333519.1

一种软硬结合板及其制造方法_深南电路股份有限公司_202011445036.2

阻断EGF-EGFR结合的多肽及其应用_湖南中晟全肽生物科技股份有限公司_202410023006.4

沥青混凝土结合面性能测试装置_长沙理工大学_202420240616.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种图片与html源码相结合的网页信息结构化提取方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务