买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京师范大学
摘要:本发明公开了一种数据集频繁项集挖掘可用性评估方法,所述方法包括步骤:1设C={I1,I2,…,In}是项的集合,给定事务数据集D1和D2,其中每个事务T是一个非空项集,使得对D1、D2利用Apriori算法挖掘得到最大频繁项集集合,记为FIS1、FIS2;2将FIS1任一项集MIS1与FIS2的任一项集MIS2通过项集匹配算法F进行匹配,得到配对项集表Pairs,Pairs由项集对MIS1,MIS2,score1组成,score1表示MIS1、MIS2的项目相似度,在匹配过程中计算得到。3对Pairs中的每一项MIS1,MIS2,score1,计算MIS1,MIS2的支持度相似度score2,进一步计算得到MIS1,MIS2的复合相似度score,更新pair为MIS1,MIS2,score;4将Pairs中的每一项的复合相似度score累加,并除以Pairs中项的个数,得到D1和D2的相似度分数SCORE,且该分数的取值范围为[0,1]。
主权项:1.一种数据集频繁项集挖掘可用性评估方法,其特征在于:所述方法包括以下步骤:步骤1设C={I1,I2,…,In}是项的集合,给定事务数据集D1和D2,其中每个事务T是一个非空项集,使得对D1、D2利用Apriori算法挖掘得到最大频繁项集集合,记为FIS1、FIS2;最大频繁项集MIS表示自身频繁但其超集均不频繁的项集,FIS1、FIS2包含若干MIS及支持度信息,而l1、l2分别表示FIS1,FIS2中|MIS1|、|MIS2|的最大值;文中MIS1、MIS2表示来自FIS1,FIS2的某一项集,步骤2将FIS1的任一项集MIS1与FIS2的任一项集MIS2,通过项集匹配算法F进行匹配,得到配对项集表Pairs,Pairs由若干项集对MIS1,MIS2,score1组成,score1表示MIS1、MIS2的项目相似度,在匹配过程中计算得到;步骤3对Pairs中所有的MIS1,MIS2,score1,计算MIS1,MIS2的支持度相似度score2,进一步计算得到MIS1,MIS2的复合相似度score,更新pair为MIS1,MIS2,score;步骤4将Pairs中的每一项的复合相似度score累加,并除以Pairs中项的个数,得到D1和D2的相似度分数SCORE,且该分数的取值范围为[0,1];步骤23中的项目相似度score1、支持度相似度score2、复合相似度score的定义如下:项目相似度score1:项集MIS1、MIS2基于项目的相似度记为score1,计算如下:若MIS1、MIS2的组成完全相同,score1=1;若MIS1、MIS2不相同,且均不为空集,若MIS1、MIS2中某一项为空集,score1=0;支持度相似度score2:已配对的项集MIS1、MIS2基于支持度的相似度记为score2.计算如下:对于Pairs中某一项MIS1,MIS2,score1,MIS1的支持度为s1,MIS2的支持度为s2,复合相似度score:项集MIS1、MIS2的复合相似度记为score,score主要基于项目相似度score1,在score1基础上,利用支持度支持度score2进行进一步细化,计算过程如下:score=score1*score2。
全文数据:
权利要求:
百度查询: 南京师范大学 一种数据集频繁项集挖掘可用性评估方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。