首页 热点资讯 义务教育 高等教育 出国留学 考研考公
您的当前位置:首页正文

基于粗糙集属性重要性的模糊聚类决策及应用

2021-04-24 来源:化拓教育网
维普资讯 http://www.cqvip.com 第33卷第3期 兰州理工大学学报 Vo1.33 No.3 2007年6月 Journal of Lanzhou University of Technology JulL 2007 文章编号:1673—5196(2007)03-0135-04 基于粗糙集属性重要性的模糊聚类决策及应用 巩增泰,姚红霞,李 娟,孙秉珍 (西北师范大学数学与信息科学学院,甘肃兰州730070) 摘要:考虑到不同属性之间的重要性,利用粗糙集理论对模糊信息表或信息表中的不同属性之间(特别是定量属性 与定性属性之间)进行耦合,提出一种计算不同属性间相似度的计算方法,即基于粗糙集属性重要性的模糊聚类方 法,解决模糊信息表或信息表中属性值定量与定性描述并存情况下的聚类问题,并根据原类结果建立决策表. 关键词:粗糙集;模糊聚类;属性重要性 中图分类号:0211 文献标识码:A . Fuzzy clustering decision based on significance of attributes of rough sets and its applications GONG Zeng—tai,YAO Hong-xia,LI Juan,SUN Bing-zhen (College of Mathematics and Information Science,Northwest Normal University,Lanzhou 730070,China) Abstract:A new method was proposed for calculating the similarity of different attributes to each other, i.e.,the fuzzy clustering decision based on the significance of attributers by considering the significance of the different attributes and then coupling these attributes allocated in the fuzzy information table or infor— mation table(especially the quantitative attributes and the qualitative attributes)with rough sets theory. Thus the problem of clustering the quantitative attributes and the qualitative attributes coexisting in infor— mation table as solved and the decision table was set up in accordance with the result of the fuzzy cluste- ring. Key words:rough sets;fuzzy cluster;singificance of attributes 模糊聚类方法在模糊识别口q]、模糊综合评 重要性,将模糊信息表或信息表中定量描述和定性 价[3]、数据挖掘[ ]等方面已经得到了广泛应用.常用 描述在相似度的计算中进行耦合,利用编码理论中 的聚类方法主要包括划分方法、层次方法、基于密度 的Hamming距离,得到不同对象之间的相似性计 方法和基于网格方法等.基于粗糙集的聚类算法的 算,将信息表转化为一般的模糊相似矩阵,通过传 研究比较少,文献[5]中提出的方法是基于遗传算 递闭包法,形成模糊等价矩阵,从而实现了无监督聚 法的,但实际上速度非常慢.值得注意的是当模糊 类,并建立了决策表. 信息表或信息表中含有定性描述,特别是定量与定 性描述并存的情况下,利用传统的方法进行聚类分 1粗糙集及属性重要性简介 析将受到限制.这种限制主要来自两个方面:1)如 在粗糙集理论中,知识系统S可表示为一个四 何将定性描述在模糊相似度中进行度量;2)如何将 元组:S一<【,,A,V,,>,其中论域【,表示数据集中 定量描述和定性描述在相似度的计算中进行耦合. 的所有对象;A表示数据集中的全部属性集合;A— 本文利用粗糙集理论提出了基于粗糙集属性重要性 CUD,C为条件属性集合,D为决策属性集合;、,r为 的模糊聚类决策方法.考虑到不同属性之间的 属性值组成的集合;,:UXA-- ̄V是信息函数,指定 了【,中每个对象的属性值.如果A—C,即只有条 收稿日期:2006-03—22 件属性而没有决策属性,则称S为一个信息表.例 基金项目:国家自然科学基金(40340235053),甘肃省教育厅科 研基金(0601—20) 如,f(u ,ai)一 ,表示对象撕在属性a 上的取值 作者简介;巩增泰(1966一),男,甘肃天水人,博士后,教授. 为 d.某个属性子集B A,z,yEU为两个对象,当 维普资讯 http://www.cqvip.com 兰州理工大学学报 第33卷 VaEB,如果有f(x,口)一厂( ,口),那么仅仅根据属 性集A提供的信息,无法将z,Y区别开来,这时称 z,Y在属性集A上是不可分辨的.论域U上由属 性集A确定的不可分辨关系IND(B)是一种等价 关系. 2基于粗糙集属性重要性的相似性度 量方法 本文对信息表中定量表示的属性,对其不同对 象之间的距离用一般统计学的Euclidean距离(当 然可以采用统计学的其他距离,如Manhattan距 离,Mahalanobis距离等以及传统相似矩阵中不同 对象之间相似度计算中的距离[7])进行属性重要性 扩展;对于定性描述的属性,由于在粗糙集信息表中 往往是将定性描述赋予特定的码字来表示的,因此 定义1E。]在信息系统中,不可分辨关系可定 义为IND(B)一{(z, )∈U×Ul Va∈B,f(x,口)一 f(y,口)}. 不可分辨关系作为一种二元等价关系,将论域 U划分为一系列等价类,根据属性集B提供的信 息,包含对象z的等价类[x]e可定义为[x]e一 {yEUlxIND(B)y),用B 标记由不可分辨关系 lND(B)定义的所有等价类,即B 一{X ,Xz,…, ).由于B 是对数据空间U的一种划分,因此 B 也被称为一种分类,记为U/IND(B). 定义2E 称(X,≤)是偏序集,若满足V z, Y,z∈X有 1)自反性: z. 2)反对称性:z≤ , ≤z z— . 3)传递性: , z z. 定义3E。 设(X,≤)是偏序集,若对于yx,Y ∈x,都有数D(y/x)与之对应,且满足 1)O ̄D(y/x)≤1. 2)z≤ D(y/x)一1. 3)z≤ ≤z D(x/z) ̄D(x/y). 则称D为X上的包含度. 定义4E。]设U为有限集,P表示U上的全体 子集,“ ”表示集合的包含关系,则(P, )为偏序 集,并且记 D(F/E)一l E n F l/l E l 则D为P上的包含度. 定理1E 设G表示U上的全体划分,(G,≤) 为偏序集,D为(P, )上的包含度,对于U上任意 两个划分: A一{Al,A2,…A^) B一{B1,B2,“・,Bf) 记 ^ f D(B/ 一^V D(Bi/A ) i一1,2,…, ; 一1,2,…,Z 则D为(G, )上的包含度. 定义5[。]设(U,A,F)是一个信息系统,R。 是U上的等价关系,任意B A,记A(B)一己厂/Re, D为U上的分划全体G上的包含度,称r(口)一l— D(A(A)/A(A-a))为属性a的重要性. 对不同对象之间的定性描述采用编码理论[8]中的 Hamming距离;考虑到不同属性之间的重要性,特 别是属性定量表示与定性描述之间的差别,使得不 同属性之间科学地耦合(所谓“耦合”是指将不同的 表示置于相同的平台,通俗地讲就是使得不同属性 的度量“单位”一致),提出了一种新的相似性度量方 法,使得聚类结果的质量更高. 定义6设S一<U,A,-厂)为一个信息系统,其 中U为对象集,即U一{z ,zz,…,z )(1≤ ≤ )为 U中的每个对象,A为条件属性集,且A一{a ,az, …,a ,b ,bz,…, ),其中a 为定性属性集,b 为定 量属性集.s一1,2,…,m,£一1,2,…, .其重要性为 r(a ),r(b ),s一1,2,…,m,£一1,2,…, ,记 r(aH)一[r 1)+r(a2)+…+r(a )]/ [r(口1)+r(a2)+…+r(a )+ r(b1)+r(b2)+…+r(b^)] (1) r(bE)一[r(ba)+r(b2)+…+r(bk)]/ [r(口1)+r(a2)+…+r(a )+ r(b1)+r(b2)+…+r(b^)] (2) 分别为定性属性和定量属性的全局重要性. 考虑对象z ,x1∈U,对于定量表示的属性 , £一1,2'..・, ,定义其扩展的Euclidean距离为 —————一 dE(x ̄, _^/∑r(V f:1  )(z —x/t)。 (3) 式中:z 表示对象z 在属性b 下的定量表示值. 对于定性表示的属性a , —l,2,…,m,在 Hamming距离意义下,如果两个对象zi, 在定性 属性a 下的码字不同,则该属性下对象间的Ham- ming距离la (zi)一吼(xj)l一1,如果码字相同,则 为Ia (z )一吼(xj)l一0.即 (xl, ): r(a )1 (z )一吼( )l(4) j21 将刻划定性表示属性a ( :l,2,…,仇)之间的 Hamming距离和表示定量属性b (£:l,2,…, )之 间的Euclidean距离进行耦合,得到不同对象zi,x/ 维普资讯 http://www.cqvip.com 第3期 巩增泰等:基于粗糙集属性重要性的模糊聚类决策及应用 …,m,£一1,2…,k,r( ,xj)为对象的相似性度量, r(xi,xj)一 H)(1一 dxn (xi ,xi) ,/q- 特别地,当每个属性重要性相同时,X ,zj的相 似性度量公式退化为式(6): 也就是相似矩阵的元素 . 证明白反性:7"i—r(x ,X )一1,由于dE(五, 一r(aH)+r( )一1 r(bD(1一 dxe (xi ,xi) )(5) z )一0,dH(z ,z,)一0,因此 对称性: 一靠,即r(Xi,Xj)一r(xi,X );由于 dE(zf,Xj)=dE(xs,X ),dH(z ,xj)一dH(xs,Xi),故 r(Xl ̄Xj)=鼎( 一 )+ r(x ,xj)一r(xj,X ),因此矩阵具有自反性和对称 性. (1一 dxE如(xl ,Xi ,) )(6) 基于粗糙集属性重要性的模糊聚类决策方法具 3模糊聚类分析 定义7E ]设X,y是两个论域,则X到y(或 在X与y之间)的Fuzzy关系R是一个直积 X×y一{( , ){xEX,yEY}上的集,即R∈F(X ×y)R:X×y一[0,1],R(x, )表示X与Y具有R 关系的程度,特别当X—Y时,R称为Fuzzy的关 系. 定义8[ ] 一个Fuzzy关系R∈F(X×X)称 为是max-min传递的,如果R。R R,即(V(z, ) ∈X×X)(V{R(x, )AR(y,z))≤R(z, )),其中 yEX. 定义9E ]设R∈F(X×X),如果: 1)S∈F(X×X)是传递的且S R; 2)Q∈F(X×X)且Q R Q S.则称S为 R的传递闭包,记为£(R). 定义10E ] 设X一{X1,X2,…, )与Y一 { , z,…, )为有限集,则XXY上的Fuzzy关系 R可用一个m xn阶的Fuzzy矩阵表示,这种表示 Fuzzy关系的矩阵称为Fuzzy矩阵,记为R一 ( ) × ,其中 一r(zf,xj), ∈[0,1]. 定理2E ]设R一( ) 是U上的n阶模糊相 似矩阵,则£(R)一 的充要条件是存在最小正整数 k,使得R 一 . 定义ll[ ]设R一( ) × 是U上的n阶模糊 相似矩阵,则R一(rff) 称为.:l截矩阵,其中 一 iif  茎 其中,A∈Eo,1]. 定理3任何一个粗糙信息表,设有n个对象, m+k个属性,定性属性个数为m,定量属性个数为 k.按照式(5)的距离度量方法进行计算,其必然与一 个nXn的模糊相似矩阵R相对应,并且可被转化 成一个n×n的模糊等价矩阵R.其中z , 为数据 集U中的对象,d 为式(3),dH为式(4),s=1,2, 体步骤:1)针对粗集的信息表,选定各个对象;2) 对于各个对象(包括定量属性集和定性属性集),利 用所提出的不同对象之间的相似性计算,将信息表 转化为一般的模糊相似矩阵R;3)求R的传递闭包 t(R),即为 产生的模糊等价矩阵;4)设定阈值A, 求得.:l截矩阵,根据.:l截矩阵进行动态模糊聚类;5) 根据聚类结果,建立决策表. 4应用举例 我国地域广阔,气候类型复杂,农业在国民经济 收入中占重要的比例,因此要因地制宜的安排农作 物的种植,以便达到最好的经济效益.下面就十个地 区,根据其土地的酸碱性,地形平坦和陡峭程度,年 降水量和阳光照射强度等四项指标作区域划分,即 对十个地区进行聚类.根据聚类结果建立决策表,以 便根据具体的地域情况来安排农作物种植.设有信 息系统S一<U,A,V,,>,其中U是对象集,U一 { ,X ,…X 。),代表了十个地区;A是条件属性集, A一{口 ,口z,b ,b ),口 表示土地酸碱性,口 表示地形 平坦和陡峭,b 表示年降水量,b 表示阳光照射强 度;V是条件属性值组成的集合,f:U ̄A-*V是信 息函数,指定了每个对象的属性值,如f(x ,口 )一 酸,表示对象z 在属性口 上的取值为酸. 表1某区域1O个地区土地与气候特征信息表 Tab.1 Informationtable of charactedstks ofdimate and soil in ten geographical loo ̄tkms U 口1 122 ba T1. 酸 平 1.5 .T2 碱 陡0.8 勰 碱 陡 1 碱 陡 O.8 酸 皿 1.5 酸 陡 1.5 碱 陡 1.5 酸 皿 1.5 酸 皿 1.5 酸 陡 O.8 维普资讯 http://www.cqvip.com ・138・ 兰州理工大学学报 第33卷 4.1根据属性知识划分等价类 Ul A一{A1,A2,A3,A4,A5,A6,A7,A8);A1一 {X1,X5),A2一{X2,X4),A3一{X3),A4一{X6),A5一 {X7),A6一{X8),A7一{X9),A8一{X10). 1)U I A一(a1)一{B1,B2,B3,B4,B5,B6,B7, B8); B1一{z1,X5),B2一{X2,X4),B3一{X3),B4一 {X6),B5一{z7),B6一{X8),B7一{X9),B8一{z10); 2)Ul A一(a2)一{C1,C2,C3,C4,Cs,C6,C7); C1一{X1,X5,X6),C2一{X2,X4),C3一{z3),C4 一{z7),C5一{X8),,C6一{X9),C7一{z10); 3)UIA一(61)一{D1,D2,D3,D4,D5,D6); D1一{z1,X5),D2一{X2,X4,X7),D3一{X3, X10),D4一{z8),D5一{X9),D6一{X10) 4)U l A一(b2)一{E1, , , ,E, ); 1 0.6 O.6 0.6 1 1 O.6 1 O.6 0.6 0.8 1 O.6 0.6 0.8 0.6 1 0.6 0.6 R== 1 对 称 令 由1降到0,分别求出£(R) ,并进行聚类. 当0.6<A ̄1时,聚类结果为 {X1,X5,z8);{X2,z4,X7);{X3,X6,z10);{X9); 4.4根据信息表和聚类结果建立决策表 表2聚类决策结果 Tab.2 Resultstableofthefuzzy clusteringdecision 表中d表示决策属性,即根据具体的地域聚类 情况安排不同的农作物种植,以便达到最好的经济 效益. E1一(X1,X5,z8,X9), 一{X2,X4), :{X3),E4一 {X6),Es一{X7), 一(X10). 4.2根据等价类计算属性重要性 根据定义5,计算属性重要性如下: r) r(a1)一O;r(a2)一 o 1 1 ,.(61)一去;r(厶 b2)一去 厶 4.3实验算法和结果 使用C语言,采用平方法求传递闭包£(R),算 法如下:1)置 一1,R —R; 2)计算R。 —Ri oR ; 3)若R i--Ri,则£(R)--Ri,计算结束.否则 —-2 转2. 结果如下: 0.6 0.6 0.86 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.9 0.8 0.6 0.6 0.6 0.6 0.6 0.86 0.6 0.6 1 0.6 0.6 0.6 0.8 1 0.6 0.6 0.6 1 0.6 0.6 1 0.6 ] 参考文献: [13 BEZDEK J C Pattern recognition with fuzzy objective function algorithms[M].New York:plenum press,1981. [2]陈守煜,韩晓军,王建明,等.模糊聚类、识别、优选统一理论与 循环迭代模型[J].大连理工大学学报,2004,44(6):883-886. [32袁志勇,查桂峰,陈绵云.基于聚类的二级模糊综合评判的车型 识别研究[J].计算机工程与应用,2005,41(12):202-205. [43许海洋,汪国安,王万森.模糊聚类分析在数据挖掘中的应用研 究[J].计算机工程与应用,2005,41(17):177—179. [5]LINGRAS P Unsupervised rough set classiifcation using gas [J].Journal of Intelligent Information System,2001,16(3); 215—228. [63张文修,梁怡,吴伟志.信息系统与知识发现[M].北京:科 学出版社,2003. [7]胡宝清.模糊理论基础[M].武汉:武汉大学出版社,2004. [8] PAVLⅡ)IS T,SWAR I J.Fundamentals of bar code informa— tiontheory[J].IEEEComputerM ̄fzine,1990,23(4):74-86. [93李洪兴,汪群,段钦治,等.工程模糊数学方法及应用[M]. 天津:天津科学技术出版社,1993. 

因篇幅问题不能全部显示,请点此查看更多更全内容