首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于模糊粗糙集的数据分级融合方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:大连理工大学

摘要:一种基于模糊粗糙集的数据分级融合方法。用小波聚类算法对属性重要度进行分级,通过信息熵、偏态系数和峰态系数定义属性的重要程度并量化特征空间。对量化特征空间进行小波变换,根据小波变换后的数据分布自定义确定密度阈值并分配簇标签,再制作查找表并将原始数据映射到对应的簇。利用模糊粗糙集进行属性去冗余,选取重要度最高的属性作为待约简属性,对剩余的属性进行遍历,若该属性是连续型属性,则先利用核函数计算该属性的模糊相似度,再利用粗糙集计算该属性的辨别矩阵和辨别函数,否则直接计算辨别矩阵和辨别函数;根据重要度分级的结果选取重要度最低的属性决定集,并选取新的待约简属性,直至没有剩余的重要属性或者属性集为空为止。

主权项:1.一种基于模糊粗糙集的数据分级融合方法,其特征在于,步骤如下:1利用小波聚类算法对属性重要程度进行分簇,使用属性敏感度、偏态系数和峰态系数共同作为属性重要程度的特征,选择属性重要程度最高的作为待约简属性;对属性重要程度进行分簇,具体过程如下:1.1首先利用属性敏感度、偏态系数、峰态系数得到属性重要程度的特征,并利用变异系数量化特征空间划分网格;属性敏感度AS:对数据集D中的属性Ai中所含信息不同将属性信息量定义为属性最大离散熵与属性信息熵的差值与属性最大离散熵的比值,其中,为数据集D中所有属性的集合,公式定义如下: 其中,HAi为属性Ai的信息熵,HmaxAi为属性Ai的最大离散熵;ASi∈0,1,ASi越小,说明属性越敏感,反之则越不敏感;偏态系数SK:用于测量数据集D中某一属性Ai的偏斜程度,对未分组原始属性计算偏态系数时,公式定义如下: 其中,n表示数据集D中的数据条数,xj表示数据集D中第j条记录对应的属性Ai的值,s表示属性Ai的所有取值的标准差,表示属性Ai的所有取值的平均值;|SK|=0表示数据是对称分布,|SK|>0表示数据是右偏分布,|SK|<0表示数据是左偏分布;峰态系数K:用于测量数据集D中某一属性Ai的尖峰程度,公式定义如下: K=0表示数据是正态分布;K>0表示尖峰分布,数据更集中;K<0表示扁平分布,数据更分散;变异系数cv:用于度量数据集D中某一属性Ai概率分布离散程度,公式定义如下: 1.2得到以上计算结果后,将属性Ai的{ASi,|SK|,K}作为特征,对属性集进行分簇;首先对特征空间进行小波变换,得到小波变换后的特征空间然后根据小波变换后的特征空间中数据的分布情况确定阈值,将密度大于阈值的网格标记为稠密,接着将稠密且相连的网格作为一个簇并编号,最后把网格中的数据打上其所在的簇序号的标签;1.3建立映射表,将簇标签映射到原始特征空间把原始特征空间中的数据按照簇标签映射到各自的簇,并根据每个簇的中心点的属性敏感度决定该簇的重要度等级,然后选取重要度最高的簇中的属性作为待约简属性;2选取待约简属性后,对剩余的连续型属性计算模糊相似度,离散型属性则不需要处理,然后利用基于粗糙集的属性约简算法计算属性的最小决定集,选取敏感度最低的属性决定集作为属性约简集;使用基于模糊粗糙集的属性约简算法进行属性去冗余,具体过程如下:2.1首先从重要程度最高的簇中选取敏感度最高的属性作为待约简属性,然后对余下的属性进行遍历,如果该属性是连续型属性就计算该属性下任意两个数据对象的模糊相似度,如果该属性是离散型属性则不需要处理,重复此过程直至对所有的连续型属性都计算了模糊相似度;连续型数据对象的模糊相似关系:用于判断两个任意的连续型数据对象之间是否相似,公式定义如下: 其中,Ac是任意连续型属性,x,y是两个任意的数据对象,表示数据对象x,y在属性Ac的条件下是相似的,是高斯核函数,ε是一个阈值,ε[0,1];2.2计算待约简属性的辨别矩阵和辨别函数,根据属性重要度分簇结果选取敏感度最低的属性决定集。

全文数据:

权利要求:

百度查询: 大连理工大学 基于模糊粗糙集的数据分级融合方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术