您的当前位置:首页正文

基于局部相似性的K—means谱聚类算法

2023-02-26 来源:步旅网
西安理工大学学报Journal of Xi’an University of Technology(2013)Vo1.29 No.4 文章编号:1006-4710(2013)04-0455-05 455 基于局部相似性的K—means谱聚类算法 王林 ,高红艳 ,王佰超 (1.西安理工大学自动化与信息工程学院,陕西西安710048; 2.宝鸡文理学院物理与信息技术系,陕西宝鸡721016) 摘要:定义科学的局部相似性指数是基于局部相似性社团发现算法的关键,根据共有邻居信息定 义的局部形似性指数对直接相连接点对的相似性数值存在低估倾向,本研究将节点对的关联信息 加入到sq,rensen局部相似性指数的定义中,结合K.means谱聚类算法对网络节点进行聚类。本研 究定义的局部相似性指数克服了传统局部相似性指数的缺点,且保持了原有的计算复杂性。在计 算机生成网络和实际网络上运行,并和经典算法做了比较,实验证明,所提算法能够较为有效、准确 地检测网络的社团结构。 关键词:局部相似性;谱聚类;K.means聚类 中图分类号:TP15 文献标志码:A Algorithm of K-means Spectral Clustering Based on Local Similarity WANG Lin ,GAO Hongyan ,WANG Baichao (1.Faculty of Automation and Information Engineering,Xi’an University of Technology,Xi’an 710048,China; 2.Faculty of Physics and Information Engineering,Baoji University of Art and Science,Baoji 721016,China) Abstract:The correlation information of node pairs isincoporated in the definition of s+re ̄en IocaI simi. 1arity index,network nodes are clustered by this similarity measure combining with Kmeans spectral clus— tering.The similarity index proposed by the paper overcomes the shortcomings of traditional local similari— ty index,and maintains the original computational complexity.The proposed method is tested on both computer-generated and real-world networks,and is compared with the typical algorithms in community detection.Experimentl resulats verify and confirm the feasibility and validity of the proposed method to monitor community structure of real internet accurately. Key words:local similarity;spectral clustering;K—means clustering 社团结构是复杂网络的重要特性之一,研究社 团结构有助于了解网络结构,分析网络特性,预测网 络功能 引,所以社团检测近年来成为学者们研究 的热点问题 。 邻居的节点对具有零相似性,这显然是不合适的。 因此,寻找一个计算简单,且能准确刻画网络结构的 相似性指数仍然是人们迫切需要解决的问题。 基于上述问题,本研究提出了一种新的局部相 似性指数,该指数以sdprensen指数 为原形,考虑了 节点直接相连接对相似性的影响,采用K-means谱 聚类法对网络节点进行聚类,与基于传统的局部相 基于相似性的算法是一类重要的社团检测算 法,它利用网络的全局或者局部特性计算节点或边 的相似性,再结合传统聚类算法社团划分 。该 算法的关键是定义合适的“相似性指数”。一类相 似性指数是全局的,考虑了网络的全局信息,计算准 确,但运算复杂度高,而且引进了额外参数,实用性 不强。另一类相似性指数为局部指数 ,采用节 点的共有邻居数或简单变形来衡量节点相似性,无 视节点是否直接相连,从而使直接相连的但无共同 收稿日期:2013-04-20 似性指数的社团发现算法和几种典型的社团发现算 法做了比较,在计算机生成的网络和实际网络上验 证,结果显示,所提的算法能够克服传统局部相似性 的缺点,继承传统局部相似性计算量小的特点,能够 准确,有效地检测人工合成网络和实际网络的社团 结构。 作者简介:王林,男,教授,研究方向为复杂网络、数据库等。E—mail:wanglin@xaut.edu.an。 456 西安理工大学学报(2013)第29卷第4期 1 基于局部相似性的K—means谱聚类算法 1.1相似性度量 0相似性。而在实际当中,同一社团内直接相连而 无共同邻居的节点对是普遍存在的,这些节点对的 相似性显然是不应该为0的。因此在定义节点相似 性时,应考虑两种情况,即: 1)两节点之间无边相连,如图1(a)所示的节点 i, ; 求网络节点的相似性一般有两种方法,如果网 络可以嵌入到/7,维欧几里得空间,每个节点对应欧 几里得空间的一个点,就可以用每对节点之间的距 离来表示节点之间的相似性。如果不能嵌入到欧几 里得空间,则节点之间的相似性只能通过节点之间 2)两节点之间有边相连(这里考虑简单图,两 的邻接关系来推断,s ̄brensen指数就是一种通过节 点的共有邻居数来描述节点之间相似性的局部相似 性指数,定义为: j一 i: k + k (1), 节点之间只有一条边),如图1(b)所示节点i, 。 为了能够准确地刻画所有节点对之间的相似 性,在节点i, 之间添加一个辅助接点q,如图1(c) 所示,则节点 和 之间的边(i, )可认为是由辅助 节点q连接的边(i,q)和边( ,g)组成。这样,节点 i,之间的边断开,反映在邻接矩阵A中,就是 行 . 式中,N(i)表示节点i的邻居。分子表示节点i与 节点 的共有邻居数,.j} , 为节点 √的度。 对于不直接相连的节点s西re en指数能够较为 准确地评估它们的相似性。对于直接相连却无共同 列和. 行 列元素由1变为0,并且需要加人辅助节 点所对应的一行和一列。假设图1(C)所对应的邻 接矩阵为A’,那么新加的行和列仅有A’(i,q),A’ ( ,g),A’(q,i),A’(g√)四个元素为1,其余为0。 邻居的节点对,由于分子为零,所以sdprensen赋予其 垂 售 (a)节点f与 之间无边 (b)节点f与,之间有边 (c)加辅助节点 图1一个简单的例子 Fig.1 a simple example 若l网络的邻接矩阵为A,贝 (1)式等价为: 2×(A( , )+∑(A( ,Jj})×A(j, ))) (2)L  s ———— —————— —————一—一 3 (5) 或为: 由于在社团发现过程中主要考虑节点对之间相 2×∑A ×A s —似性值的排序,故可以省去乘数因子,得到相似性指 专l一 (3) 数为: 添加辅助节点以后,将新的邻接矩阵带入(3) 式得到: A( , )+∑(A( , )×A(j, )) s ——— ————— ———一—一 (6)o J 2×∑A ×A ij —— 上式可以简写为: s = k—~(4) ■ (7)L  2×(1+∑(A( , )×A(j, )) ——— .修正sqbrensen考虑了节点直接相连对相似性的 贡献,在计算复杂性上,修正scbrensen指数与 s re en指数具有相同的时间复杂性,为o(n ),所 以它更适合检测网络的社团结构。 1.2 K-means谱聚类算法 定义了网络节点的相似度以后,网络社团划分 + 如此,第2)类情况可用表达式(4)进行计算。 所以任意节点对的修正s 示为: e 相似性指数可表 王林,等:基于局部相似性的K-means谱聚类算法 问题就可以转化为聚类问题,可以用基于相似矩阵 的聚类算法进行划分。这里采用K—means谱聚类算 法对网络节点进行聚类_1 ,算法执行过程为: 1)根据上节定义的相似性指数计算相似性矩 阵S; 2)求相似性矩阵的特征值和相应的特征向量, 将特征值按顺序排列,根据相邻特征值之间的最大 距离估计网络的社团个数C; 3)取特征值前c个最大值所对应的特征向量 组成新的向量 ; 4)以',为原始数据对其进行K.means聚类; 5)用模块度验证估算的社团个数C的合理性, 计算社团划分的准确性。 该算法的时间复杂度由三部分组成,第一部分是 计算相似『生矩阵的复杂度为O( 。),第二部分是谱聚 类算法,计算特征向量时采用Lanczos方法快速计算 前k个最大特征值对应的特征向量,该方法的复杂度 约为0(km),其中k为社团个数,m为网络节点数。 第三部分是K—means聚类算法的复杂度O(ktn),t为 迭代次数,n为网络节点数。因为k为常数,迭代次 数t有限制总时间复杂度为O(n +m)。 2仿真 为了测试本研究所提算法的性能,笔者利用计 算机合成的网络和真实世界网络进行了社团发现 实验。 2.1计算机生成网络 所用的基准网络_1u由128个节点组成,划分为 4个社团,网络中节点的平均度为16,其中社团之间 的节点度期望值为z ,社团内节点度期望值为 zi ,让z。 从l到8连续增加,观察社团划分情况。 社团划分的准确性用归一化互信息(Normalized mutual information)来度量¨ ,定义为: NMI(X,Y)= 一2∑ CX∑ xN01 ̄g( ) ——————— _———————L L 一 (8) ∑ Cx N log( )+∑ Cy log( ) 式中, 为原始的社区划分,l,为算法得出的社团划 分,NMI(X,Y)表示划分 与划分y之间的接近程 度,取值范围为0—1,其值越大算法所得的社团结 构与真实社团越接近,当NMI=l时表示所得结果 与真实社团划分完全一致。当NMI=0时表示算法 得到的划分与真实划分完全不同。 社团划分的NMI曲线如图l所示,由于生成的 457 基准网络具有随机性,对于每个z。 值笔者重复做 了100次实验。图2中每个点对应100次实验的平 均值。由图2可知,当z 。从零逐渐增加时,由于基 准网络的社团结构由清晰变模糊,所以NMI曲线呈 递减趋势;当Z =1—4时该算法的正确划分率为 100%,Z 。<6时准确率在0.9以上。当z。 继续增 加时,由于网络社团结构越来越模糊,社团检测准确 率剧烈下降。可见当社团结构明显时,该算法的准 确率是比较高的。 0 萋0 0 1 2 3 4 5 6 7 8 Z。 社团划分准确性 图2算法准确度 Fig.2 The accuracy of the algorithm 为进一步验证算法性能本研究做了两组实验, 首先将基于改进相似性指数的算法与基于原相似性 指数的算法做了比较,结果如图3所示。由图3可 知Z。 <4时两种算法的准确率都比较高,但当z 继续增加的时候,改进算法的准确率明显高于原 算法。 O 萋o 0 l 2 3 4 5 6 7 8 z。 不同相似性比较 图3不同相似性比较 Fig.3 The comparison of different similarity 其次,将本算法与GN算法(GN)和快速算法 (fastgreedy)做了比较,结果如图4所示。 萋: 0 1 2 3 4 5 6 7 8 乙 算法比较 图4不同算法比较 Fig.4 The comparison of different algorithms 由图4可见,当社团结构比较明显时(Z。 < 7),本研究算法性能高于GN算法和快速算法,当社 团结构模糊时(Z。 >7),由于本算法采用了节点的 458 局部信息,算法准确率低于GN算法和快速算法。 从算法的复杂度来看,本算法时间复杂度大于GN 算法,小于快速算法。 2.2真实网络 研究社团发现算法的目的在于检测社团个数未 知的真实网络的社团结构,所以还需要用真实网络 检测算法的准确性和有效性,下面笔者将用常用实 际基准网络Karate网和美国大学足球俱乐部网检 测算法。 Zachary网络是检测社团发现算法的基准网络 之一 J ,反映了美国一所大学中空手道俱乐部34 名成员之间的相互社会关系。该俱乐部在被研究期 间,由于内部争执而分裂成了16名成员和18名成 员的小俱乐部。该俱乐部的自然划分如图3所示, 图3中方形和圆形分别代表分裂后的小俱乐部中的 各个成员。图5为本算法得到的相似矩阵特征序列 图,图6为相应的模块度曲线。表1社团划分结果。 表1 karate网络社团划分结果 Tab.1 The result of community detection of karate network 社团 所含节点 1 1,2,3,4,5,6,7,8,11,12,13,14,17,18,20,22 9,10,15,16,19,21,23,24,25,26,27,28, - 29。30。31,32,33。34 图5 Zachary空手道俱乐部成员划分结果 Fig.5 The result of community detection of Zachary karate club 趔 降序排列的特征值序号 图6相似矩阵特征值序列图 Fig.6 Sequence diagrams of similarity matrix 从图6可知,最大特征向量距离为A:一A ,所 以预测社团个数为2,由图7可知,当社团个数C=2 西安理工大学学报(2013)第29卷第4期 时,模块度最大,为0.3715,所以预测时正确的。由 表1可知网络划分为两个社团,第一个社团16个节 点,第二个社团l8个节点,划分准确率为100%。 O・3 O.2 t O・O .0.0 社 个数 图7模块度值 Fig.7 The values of modularity 美国大学足球联盟网络是根据2000年秋季常 规赛季的比赛计划构建的 ]。网络中的节点代表 球队,边代表两个球队之间常规赛季的比赛,它共 包含115个节点和616条边。该网络通常由8~12 个球队组成一个联盟(conference),同一个联盟球队 之间的比赛次数多于不同联盟的球队间的比赛次 数,每个联盟代表了一个真实社团。该网络自然划 分为12个社团。采用本算法进行社团检测,社团划 分结果如表2所示,当社团个数为l2时,所得模块 度最大为0.6005,共有11个节点被错误划分,划分 准确率为90.43%。 表2 football网络社团划分结果 Tab.2 The result of community detection of football network 社团 所含节点 1 1,5,10,17,24,42,94,105 2 2,26,34,38,46,90,104,106,110 3 3,7,14,16,33,40,48,61,65,101,107 4 4,6,11,41,53,73,75,82,85,99,103,108 5 8,9,22,23,52,69,78,79,109,112 6 12,25,29,51,70,91 7 13,15,19,27,32,35,39,43,44,55,62,72,86,100 8 18,21,28,57,63,66,71,77,88,96,97,114 9 20,30,31,36,56,80,81,83,95,102 10 37,59,60,64,98 11 45,49,58,67,76,87,92,93,113 12 47,50,54,68,74,84,89,111,115 3 结论 (1)提出了一种新的网络节点相似性度量方 法,该方法在检测网络社团方面比传统局部相似性 指数更为准确,且计算复杂度不大; (2)将该相似性和K.iYleans谱聚类相结合,较 为准确而有效地检测实际网络社团结构。文中定义 王林,等:基于局部相似性的K—means谱聚类算法 的相似性指数也可以和任何基于相似性的社团发现 相结合以检测社团结构。 参考文献: [1]Strogatz S H.Exploring complex networks[J].Nature, 2001,410:268-276. [2]Boccaletti S,Latora V,Moreno Y,et a1.Complex net— works:structure and dynamics[J].Physics Reports,2006, 424:175—308. [3]胡海波,王林.关于因特网自治系统的连接率的幂律关 系[J].西安理工大学学报,2005,21(2):204-206. Hu Haibo,Wang Lin.Power law relationship of connection rates in ass of the internet[J].Journal of Xi’an University of Technology,2005,21(2):204-206. [4]Santo Fortunato.Community detection in graphs[J].Phys— ics Reports,2010,486:75—174. [5]Kernighan B W,Ljn s.An efifcient heuristic procedure for partitioning graphs[J].Bell System Technical Journal, 1970,49:291-307. [6]Newman M E J,Girvan M.Finding and evaluating commu— nity structure in networks[J].Physical Review E,2004, 69:026113. [7]Zhou Tao,Lv Linyuan,Zhang Yicheng.Predicting missing 459 links via local information『J].The European Physical Journal B,2009,71(4):623-630. [8]Leicht E A,Holme P M E J.Newman。vertex similarity in networks[J].Physical Review E,2006,73:026120. [9]Sorensen T A.Method of establishing rgoups of equal am— plitude in plant sociology based on similarity of species content and its application to analyses of the vegetation on Danish commons[J].Biology Skr,1948,5(1):23.27. [10]孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报, 2008,19(1):48-61. Sun Jigui,Liu Jie,Zhao Lianyu.Clustering algorithms research[J].Journal of Sotfware,2008,19(1):48-61. [1 1]Girvan M,Newman M E J.Community structure in social and biological networks[J].Proceedings National Acade— my Science,2002,99(12):7821-7826. [12]Danon L,Diaz—Guilera A,Duch J.Comparing community structure identicafion『J].Journal of Staitsticla Mechan. ics:Theory and Experiment,2005,(9):09008. 『131 Zachary W W.An information flow model for eonflict and ifssion in small groups[J].Journal of Anthropological Re— search,1977,33(4):452-473. (责任编辑李虹燕) 

因篇幅问题不能全部显示,请点此查看更多更全内容