买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中科曙光南京研究院有限公司
摘要:本发明公开了一种图片与html源码相结合的网页信息结构化提取方法,跨模态信息处理技术领域。具体包括:html页面源码预处理,获取预处理数据;搭建html页面图片版面分析模型,获得标题、正文、作者、发布时间、图片在html图片中的像素位置;html图片OCR模型识别,得到相应的文本内容,并按顺序排序形成文本列表;搭建图片相似度模型PICsim;对比html源码解析数据与html图片解析数据,分别输出最终标题、作者、发布时间,最终图片,最终正文。本发明将图片版面信息与html源码内容结合起来,通过分析图片的版面信息,利用文字编辑距离相似度和图片相似度进行判断,提高了对信息的判断和抽取的准确性。
主权项:1.一种图片与html源码相结合的网页信息结构化提取方法,其特征在于,具体步骤包括:步骤S1,html页面源码预处理,获取预处理数据,具体包括:S11、根据html的标签划分html页面源码,按顺序形成列表;S12、采用正则匹配所述标签的内容,将其分为纯URL格式和非URL格式,并将其记为:和S13、将URL的非图片网址过滤,留下图片网址并下载图片,得到html页面源码图片列表,记为:步骤S2,搭建html页面图片版面分析模型,具体包括:S21、利用python库将html页面版面转换为html图片;S22、训练一个针对步骤S21获得的所述html图片的版面分析模型,用以实现输入所述html图片,输出标题、正文、作者、发布时间、图片在所述html图片中的像素位置;S23、训练步骤S22中所获得的所述版面分析模型;S24、将html图片送入到训练后的所述版面分析模型,用以推理,获得标题、正文、作者、发布时间、图片的相关位置;步骤S3,html图片OCR模型识别,采用OCR模型对步骤S2获得的标题、正文、作者、发布时间数据进行文本行的检测与文字识别,得到相应内容,并按顺序排序形成文本列表,记为:OCRtxt=[Title,Publishtime,Author,Content];步骤S4,搭建图片相似度模型PICsim,具体包括:S41、将html图片按照像素位置截取图片列表,记为:S42、将步骤S41获得的所述图片列表与html页面源码得到的原图进行标注,训练相似度模型;S43、对图片pic1和pic2,计算其相似度,获得图片列表,公式为:PICsimpic1,pic2=Psim1,2;步骤S5,对比html源码解析数据与html图片解析数据,获取解析结果,具体包括:S51、将html源码图片列表和图片列表送入图片相似度网络得到相似度矩阵: 针对矩阵列表,将每一列的最大值选取出来,当存在num个最大值对应的行一致时,则在这num个最大值中选择最大的值保留行不变,其余num-1则选择次大值对应的行,如果仍存在一致,则继续上述步骤,输出最终图片;S52、将html源码文本列表和html图片通过OCR模型识别得到的标题、作者、发布时间的文本列表OCRtxt=[Title,Publishtime,Author],计算编辑距离相似度矩阵,输出最终标题、作者、发布时间,具体公式为: 其中Sthi表示Title和htmltxti的编辑距离相似度,Sphi表示Publishtime和htmltxti的编辑距离相似度,Sahi表示Author和htmltxti的编辑距离相似度,选取每一行的最大值对应的列下标记为[Tindex,Pindex,Aindex],则最终选择的标题为发布时间为作者为S53、将html源码文本列表HTMLtxt的剩余向量进行重新拼接,获得html源码拼接文本列表,记为:TogetherHtml,将图片通过OCR模型识别得到的正文列表OCRtxt=[Content]与html源码拼接文本列表TogetherHtml,计算编辑距离相似度向量,输出最终文本,具体公式为: 其中Si为Content和的编辑距离相似度,最终选择相似度最大的下标记为Cindex,则最终选择的正文内容为
全文数据:
权利要求:
百度查询: 中科曙光南京研究院有限公司 一种图片与html源码相结合的网页信息结构化提取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。