江西理工大学毛伊敏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江西理工大学申请的专利基于Spark并行频繁项集挖掘方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114138860B 。
龙图腾网通过国家知识产权局官网在2025-09-19发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111391423.7,技术领域涉及:G06F16/2458;该发明授权基于Spark并行频繁项集挖掘方法是由毛伊敏;吴斌;许春冬设计研发完成,并于2021-11-23向国家知识产权局提交的专利申请。
本基于Spark并行频繁项集挖掘方法在说明书摘要公布了:本发明提出了一种基于Spark并行频繁项集挖掘方法,包括以下步骤:S1,通过矩阵存储获取支持度计数矩阵,并提供创建条件FP‑tree的支持度计数查询;然后根据获取的支持度计数,剔除不满足最小支持度的项,得到频繁1项集矩阵;然后通过非负矩阵分解策略SNMF分解储存频繁1项集的矩阵;S2,由S1的频繁1项集矩阵可得频繁1项集F‑list,采用遗传算法的分组策略GS‑GA对S1得到的频繁1项集均匀分组;S3,采用高效缩减树结构策略ERTS合并条件模式基,删除FP‑tree中不满足最大频繁项集的路径;然后并行挖掘分组的FP‑tree,获得频繁项集,并将结果输出到分布式文件系统HDFS中。本发明解决了创建条件FP‑tree的时空效率低,节点间的通信开销大,冗余搜索的问题;在时空效率上和推荐非空率上都有显著的提高。
本发明授权基于Spark并行频繁项集挖掘方法在权利要求书中公布了:1.一种基于Spark并行频繁项集挖掘方法,其特征在于,包括以下步骤: S1,通过矩阵存储获取支持度计数矩阵,并提供创建条件FP-tree的支持度计数查询;然后根据获取的支持度计数,剔除不满足最小支持度的项,得到频繁1项集矩阵;然后通过非负矩阵分解策略SNMF分解储存频繁1项集的矩阵; S1-1,支持度计数矩阵获取:先从分布式文件系统HDFS中获取数据库信息,转化为初始抽象弹性分布式数据集RDD,利用RDD的faltMap函数生成来自数据集的所有项;接着在数据集的每个项上,应用Map函数生成item,1键值对;然后存储每个事务中各个项两两组合的支持度计数于矩阵之中;最后使用reduceByKey来进行支持度统计,获得支持度计数矩阵; S1-2,频繁1项集矩阵获取:根据获取的支持度计数,剔除不满足最小支持度的事务,得到频繁1项集,并更新矩阵的存储信息,获得频繁1项集矩阵; S1-3,矩阵分解:采用非负矩阵分解函数FNMF分解频繁1项集矩阵; 非负矩阵分解函数FNMF为: 其中V,W,H为非负矩阵;表示V属于维度为a×b的非负矩阵,表示W属于维度为a×c的非负矩阵,表示H属于维度为c×b的非负矩阵;a、b、c表示矩阵维度; min表示取最小值; 为惩罚项; ||·||F表示F范式; γ为稀疏参数; ·T表示矩阵的转置; S2,由S1的频繁1项集矩阵可得频繁1项集F-list,采用遗传算法的分组策略GS-GA对S1得到的频繁1项集均匀分组; S2-1,最优解获取:在获取频繁1项集F-list之后,先采用“高权二进”编码HWB,编码转换F-list,得到初始种群;然后采用个体适应度计算公式FCIF,筛选初始种群,获得下一代种群;最后,根据获得的新的种群,遗传变异种群,获得最优解; 所述“高权二进”编码HWB包括: 当频繁1项集为{X1,X2,...,Xn},Xk的支持度计数采用二进制编码时,其正常编码个体的概率为P=m+12mk,其中Xk为第k个正常编码个体,k∈{1,2,...,n},m为各项集项的个数,n表示频繁1项集的项个数有n个; 且二进制整数各位的权重满足其中为任意符号,N*表示正整数,为存在符号; 所述体适应度计算公式FCIF包括: 给定总集{x0,x1,...,xn},存在价值分别为{y0,y1,...,yn},种群容量为C,则个体适应度为: 其中yi表示xi的存在价值; xi表示第i项集; 表示相关系数, S2-2,频繁1项集分组:获得最优解后,根据最优解,分组频繁1项集; 获得最优解后,根据最优解的编码信息对频繁1项集F-list进行分组,在完成n-1次分组时,剩余个体自动成为一组;获得分组列表Group-list后,将得到的分组列表Group-list存储到HDFS中,使得集群中任意节点都能访问;其中n为频繁1项集的总项数; S3,采用高效缩减树结构策略ERTS合并条件模式基,删除FP-tree中不满足最大频繁项集的路径;然后并行挖掘分组的FP-tree,获得频繁项集,并将结果输出到分布式文件系统HDFS中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江西理工大学,其通讯地址为:341000 江西省赣州市章贡区红旗大道86号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。