买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:绿盟科技集团股份有限公司;北京神州绿盟科技有限公司
摘要:本申请提供一种网页识别方法、装置、设备及存储介质,涉及计算机技术领域,用于实现网页类型的自动检测,降低网页识别的复杂程度。该方法包括:根据待识别网页的统一资源定位符URL获取待识别网页的网页截图;根据网页截图的各行或者各列的像素值之间的差异度确定网页截图的图像分割线,并根据图像分割线对网页截图进行图像分割,得到至少一张目标检测图片;确定至少一张目标检测图片中每一目标检测图片属于目标图片类型的概率,并根据每一目标图片的概率确定待识别网页属于目标网页类型的概率;在待识别网页属于目标网页类型的概率大于设定的概率阈值时,确定待识别网页的类型为目标网页类型。
主权项:1.一种网页识别方法,其特征在于,所述方法包括:根据待识别网页的统一资源定位符URL获取所述待识别网页的网页截图;根据所述网页截图的各行或者各列的像素值之间的差异度确定所述网页截图的图像分割线,并根据所述图像分割线对所述网页截图进行图像分割,得到至少一张目标检测图片;确定所述至少一张目标检测图片中每一目标检测图片属于目标图片类型的概率,并根据所述每一目标图片的概率确定所述待识别网页属于目标网页类型的概率;在所述待识别网页属于目标网页类型的概率大于设定的概率阈值时,确定所述待识别网页的类型为目标网页类型;其中,所述根据所述网页截图的各行或者各列的像素值之间的差异度确定所述网页截图的图像分割线,包括:确定所述网页截图中第一方向上的每一组像素值中各像素值之间的差异度;其中,所述第一方向为行方向,每一组像素值为一行像素值,或者,所述第一方向为列方向,每一组像素值为一列像素值;当所述每一组像素值的差异度小于设定的差异度阈值时,确定所述每一组像素值对应的像素点为所述网页截图的图像分割线。
全文数据:
权利要求:
百度查询: 绿盟科技集团股份有限公司 北京神州绿盟科技有限公司 一种网页识别方法、装置、设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。