首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

网页聚类方法及相关装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京邮电大学

摘要:本申请提供一种网页聚类方法及相关装置,其中,所述方法包括:将同类的待聚类网页数据归类为一簇,并设置相应的簇心,通过待聚类网页和各个已有簇的簇心间进行比较,对待聚类网页进行聚类。其中:通过DOM树尺寸的预比较,减少了距离计算的次数;通过提出层次分布距离的定义并以此作为DOM树相似程度的衡量方法,使得所提出方法在具有较高执行效率的同时,能够保证更优的聚类效果。

主权项:1.一种网页聚类方法,其特征在于,包括:获取待聚类网页数据集,对所述待聚类网页数据集中的每一个待聚类网页数据,按顺序执行以下聚类操作,以完成所述待聚类网页数据集中的全部待聚类网页数据的聚类:响应于确定所述待聚类网页数据为第一个进行聚类的网页,创建新的簇,将所述待聚类网页数据加入该新的簇中,并将所述待聚类网页数据设置为该新的簇的簇心;将该新的簇加入到簇列表中;响应于确定所述待聚类网页数据为非第一个进行聚类的网页,将所述簇列表中所述簇心的文档对象模型DOM树尺寸中与所述待聚类网页数据的DOM树尺寸的差值小于第一阈值的所述簇心作为预选簇心;分别计算所述待聚类网页数据与每一个所述预选簇心的层次分布距离,对所述待聚类网页数据与每一个所述预选簇心分别进行以下操作:遍历所述待聚类网页数据的DOM树,根据所述待聚类网页数据的DOM树的节点分布信息得到第一层次分布数组和第一统计分布向量;遍历所述预选簇心的DOM树,根据所述预选簇心的DOM树的节点分布信息得到第二层次分布数组和第二统计分布向量;其中,层次分布数组由该数组中每一层的分布向量组成,表示所述DOM树中每一层的每一种节点数目在该层总节点数目的占比;统计分布向量表示所述DOM树中每一层的节点数目在总节点数目的占比;将所述第一层次分布数组和所述第二层次分布数组中维度较小的数组的维度补齐至与维度较大的数组相同,得到新的第一层次分布数组和新的第二层次分布数组;根据所述新的第一层次分布数组和所述新的第二层次分布数组的分布向量之间的夹角计算所述待聚类网页数据与所述预选簇心的层次相似度;根据所述第一统计分布向量和所述第二统计分布向量之间的夹角计算所述待聚类网页数据与所述预选簇心的统计相似度;将所述层次相似度与所述统计相似度的比值作为所述待聚类网页数据与所述预选簇心的层次分布距离;所述层次分布距离用于表示所述网页的文档对象模型DOM树的相似程度,响应于确定所述层次分布距离中最小的层次分布距离小于等于第二阈值,将所述待聚类网页数据加入所述最小的层次分布距离对应的簇中;响应于确定所述层次分布距离中最小的层次分布距离大于第二阈值,创建新的簇,将所述待聚类网页数据加入该新的簇中,并将所述待聚类网页数据设置为该新的簇的簇心;将该新的簇加入到簇列表中。

全文数据:

权利要求:

百度查询: 北京邮电大学 网页聚类方法及相关装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术