基于矩阵加权关联规则的空间粒度聚类算法
2023-09-26
来源:步旅网
lSSN 1 009-3044 E-maih jslt@cccc.net.an http://www.dnzs.net.en Teh+86—55 1—5690963 5690964 Computer Knowledge and Technology电脑知识与技术 Vo1 6,No.2,January 2010,PP.259—261 基于矩阵加权关联规则的空间粒度聚类算法 李泽军 (湖南工学院计算机科学系,湖南衡阳421002) 摘要:提出了一种基于矩阵加权关联规则的空间粒度聚类算法。该算法核心思想是根据文档特征向量矩阵提取文档的相似度,再在 该关联规则算法上进行聚类来寻找相似关系的频繁项集。在粒度空T日]中采用相似度阀值进行调整粒度的粗细问题。通过矩阵加权 关联规则算法进行聚类 通过实验表明,在处理中小型文档时,该算法的精确度优于传统Apriori算法和K—mean算法;在处理大型 文档时.该算法的时间复杂度小于传统的K—mean算法。 关键词:关联规则:粒度:聚类算法;频繁项集 中图分类号:TP391 文献标识码:A 文章编号:1009—3044(2010)02—259—03 The Cluster Algorithm of Spatial Grain Based on Matrix Weighting Association Rules LI Ze Jun (hunan Insittute ofTechnology,Hengyang 421002,China) Abstract:A cluster algorithm of spatial grain based on association rules of Matrix weighting is proposed.This algorithm utilizes eigenvector maticesr of the document to extract its similarity degree,and then clusters to search for the frequent items of similar relation on the basis of above—mentioned association rules.Thereafter threshold value of similairy tdegree will be employed to adjust the area of granulariyt in spa— tial grain.Subsequently the results of the Matrix Weighting algorithm will be clustered.Experiments suggest that the precision of this algo— ithm excelrs the Apriori and the K—mean whi1e processing documents of iddle and snlalml size.As for large—scale documents.the Time Complexiy of tthis algorithm is lower than that of K—mean. Key words:association rules;granularity;cluster algorithm;frequent items 目前大多数网络信息是以文梢或文本的形式存储,人们都期待从这些信息中提取自己感兴趣的知识。传统的信息检索技术已 不适应日益增加的大量文本数据处理的需要,典型的是,大量文档中只有很少一部分与用户有关,而不清楚文档的内容,就很难形 成有效的查询和从信息数据中分析和提取有片j 信息。这样我们就需要有关的丁具来完成不同文档的比较,对文档信息进行聚类 分析等口1。数据挖掘研究主要是针对结构数据的,如关系的,事务的和数据库的数据。而文档数据库中存储最多的是半结构甚至是无 结构信息数据,因此,对半结构或无结构数据的建模和实现就成为了文档数据挖掘的一个重要组成部分。目前的文档聚类主要有基 于概率的方法和基于距离两种方法。基于概率的方法是以贝叶斯概率为理论基础,用概率的分布方式描述聚类结果,可处理类问相 互重叠的情况.缺点是当特征空间的维数较高或特征值之间出现较强的相关性时,聚类的精度和效率均不能令人满意。基于距离的 方法.典型的有k一模糊均值算法等,它们都以特征向量表示文档,再将文档看成向量空间中的一个点,通过计算点之间的距离来逆 行聚类,比较形象直观,缺点是当文档维数较高时聚类的质量和算法的效率都明显地下降。 在本文的研究中,我们用主题表示文档,将文档和主题间的关系描述成事务的形式,根据臻于成熟的关联规则挖掘算法初步划 分文档类。然后依照类间耦合度和类的内聚性进行聚类确认。算法的基本思想是:首先利用向量空间模型对文档进行结构化处理, 用文档主题特征向量形成文档主题事务矩阵。然后运用空间粒度分析的方法对样本事务矩阵实现最优聚类即关联规则的空间粒度 聚类算法,并与经典的k一均值模糊算法进行比较,关联规则的空间粒度聚类算法的精度比k一均值模糊算法提高了很多,并用实验 证明了其有效性和可行性 l文档结构矩阵加权关联规则 在向量空间模型中我们设T=(h,t ,…,t )是一个文档数据库,tj表示文档数据库中的第j个记录I={iI,i ,…,i }表示文档数据库的 特征词项集,wp=【w[t,][i p】]J×P用于表示特征词项i 在文档数据库中的矩阵权值[2 31。其中(1≤j≤n,1≤p≤m),若i 不在t 中,则w[tj][id= 0。我们令xcI,Y[I,且xnY=0,则有特征词项集fX,Y)的矩阵加权关联规则可以表示为x—Ym。设某数据库中有2个文档,第一个 文档表示为w 第二个文档表示为w_l,,用Uu表示文档w ,词语对文档w , 的关联度,则U。 可以用矩阵表示为: 1 2… H21U22… 2 1.1矩阵加权关联规则支持度和可信度 支持度表示规则的频度。若文档数据集T中包含项目集K的事务数称为项目集K的支持数,可用公式表示为 收稿日期:2009—11—21 基金项目:湖南教育厅科学研究基金项目(08C248);湖eb ̄-g厅科学研究基金项目(09C297) 作者简介:李泽军(1972一),男,湖南常宁人,讲师,硕士研究生,主要研究方向:数据挖掘,文本检索,模式识别。 本栏目责任编辑:闻翔军 数据库与信息管理 *259 Computer Knowledge and Technology电脑知识与技术 第6卷第2期(2010年1月) support(X,y) ( w 【 D … f ∈, ∈ J 、 其中,k为项集fXUYl的项目数,n为数据库的记录数。 可信度表示规则的强度.我们定义矩阵加权关联规则可信度为: 。。nf(x r):—support(xuy) 。 r21 —support(x) 、 用minsupport表示最小矩阵加权支持度阈值,则有support(x,Y)≥minsupport。同理用minconf表示最小矩阵加权可信度阂值,则 有eonf(x,Y)≥mineonf。令I.cI是q一项集。I 项集在文档数据库中的出现次数为SC(I.),若包含q一项集I 的k一项集是频繁的,那么包 含项集I,的k~项集最大权值之和为max w(i,,k)可表示为: maxw( , ) (∑ w[f』I1 1)+SC(I1)∑Wrl f31 cT E( yJ 』 l _x mi sup 州 (4) 疗× 由公式f3)和(4)可以推导出包含q一项集I‘ ,的k一项集权值阈值我们用kiwt(I.,k)表示即可以得出以下公式: —目 kiwt(Ii, )=月xkxmin support—sc(z,)ZM2rl (5) 若q一项集I 的k一项集权值之和大于等于k一项集权值阈值,则包含I 的k一项集很有可能是频繁项集。对于矩阵加权k一项集的 任何子集,只要至少存在一个子集的权值之和小于其k一权值阂值,则该k一项集一定是非频繁项集。 1.2矩阵加权关联算法 矩阵加权关联算法思想为根据包含fk一1)一项集的k一权值阈值找出可能生成频繁k一项集的(k一1)一项集组成新的项集C(k一1)并进 行剪枝候选项集。经过剪枝后的矩阵候选项集将大幅度减少。再由C(k~1)产生矩阵加权频繁k一项集L(k一1)并进行剪枝候选项集。 重复运用k一权值阂值逐层迭代。直到矩阵加权候选项集集合为空时结束。最后根据矩阵加权可信度由矩阵加权频繁项集生成文档 词语之间的相关度(相似度1。其算法描述如下: ~ 1)扫描文档数据库T,找出可能的最大项目集的项目个数(hem—Maxsize)、项目总数(Item—count) ̄N事务记录总数record—count)。 2)扫描文档数据库T,累加各个1一项集的权值(SumWeight(C )和支持数(sc(c )),找 各1一项集的最大权值(MaxWeight[C。])以及 计算包含l一项集的2一权 值阂值fKjwlfC ,2)),最后产生C ,C ,Ll。 3)根据Apriori连接相似算法,由C 连接生成C 。累加候选项集C 存数据库T中出现的频度。 4)统计C 中所有候选项集的权值之和SumWeight(Ck)和包含C 的(k—1)一权值阈值(Kiwt(C ,k+1)),进行剪枝。 51生成频繁项目集.并入库。 61输出繁项目集,产生文档词语之间的相关度(相似度)。 相似度得出后,根据计算结果就可以执行聚类空间粒度聚类算法。 2基于空间粒度的聚类算法 2.1空间粒度分析理论及粒度分析 在文档的归类的问题上将所研究的问题用一个j元组fx,F, 进行描述 ,其中x表示主题的论域,即考虑基本元素的集合。若F 为属性函数,则可以定义为F:x—Y,其中Y表述基本元素的属性集合。T表示论域的结构,我们把它定义为论域中各个基本元素之间 的关系。从一个较“粗”的角度看问题,实际上是对X进行简化,把性质相近的元素看成是等价的,把它们归人一类,整体作为一个新元 素,这样就形成一个粒度较大的论域,从而把原问题(x,F, 可以转化成新层次上的问题(【X], 】,rrJ)。可以单独进行处理关系。 聚类算法是一种有效的数据分析方法:从划分角度来看,聚类算法事实上每一种聚类结果都是对应该数据集上的一种划分,而 一个等价关系就定义了数据集合的一个划分。在不同的聚类阈值处得出不同的聚类结果。即使在某一次具体的聚类过程中簇内部 的粒度是相同的,但簇间的粒度可能很相似。本文所需要的结果应该是划分后的各个簇,其粒度差别大于一定的阈值,即簇间的粒 度差异明显,而簇内的粒度相同。此时的关键就是选择合适的簇间相似度,这是粒度基本思想在簇问的表现。 本文采用粒度分析方法即一个不断分析比较的动态过程,合并和分解法选择来调整粒度。对于给定的相似度函数,取不同的阂 值,必然得到一聚类,这些聚类一般是不同的。当采用较大的阈值时,展现在我们面前的是样本点集比较“粗’的轮廓,一些细枝末节 被忽略掉了;而采用较小的阈值时,就能够比较精细地刻画样本点之间一些细微差别。当阈值R>R 时,所有样本被聚一类,称粗粒 度聚类,而R<R 时,所有样本各成一类,称细粒度聚类。 因此在进行聚类分析时,以“最优”相似度函数为基础,在所有可能的粒度中,寻找出一个“最优”合适粒度。 2.2基于关联规则的空间粒度聚类算法 根据矩阵加权关联算法的计算结果,把空间粒度原理应用到聚类中,就可以设计出相应的聚类算法: 1)求所有文档样本的重心,并以离该重心最近的样本作为中心点。 一 21求出其它未聚类的所有样本与中心点的平均距离D。 3)以平均距离为初始聚类,求出球形圆环。 41求当前球形的重心,获得新的球形,直到球形的样本数不再增加为止。 51找离当前球形的重最远的点作为下一步球形的圆心。 6)重复2)~5)直到球形包含所有的样本为程序结束条件。 ‘ 71采用粒度分析法对得到的聚类结果进行分析。根据矩阵加权关联算法得出的相似度、人对文档感兴趣情况及结合实际情况 判断聚类结果。若粒度偏大即平均距离偏大,重新选择新的D,返回(3);若粒度偏小转步骤(8),若粒度合适,则转到步骤(4)。 81求出聚类结果中簇与簇两两之间的相似度,并对所有相似度值中求出最大的相似度值MAXSIM。 9)初始化一个相似度阂值S。如果最大相似度MAXSIM<S,则聚类结束;否则把相似度最大的两个簇合并,直到聚类结束。 260 数据库与信息管理 * * 本栏目责任编辑:闻翔军 第6卷第2期(2010年1月) Compu ̄rKnowledge and Technology电脑知识与技术 10)根据矩阵加权关联算法得出的相似度、人对文档感兴趣情况及结合实际情况调整确定合适的粒度,再次对聚类结果进行分 析并适当调整相似度阂值S,得到最后的聚类结果。该文的聚类算法在矩阵的初始构造和关联算法计算机相似的结果上都应用到。 再用粒度的粗细阀值进行空间粒度聚类,进一步对文档的精确度进行提高。 4实验和结论 在实验中我们采用聚类准确率来表示聚类精确度,即存一个类别中的正确分类与算法存该类上的所有分类的百分比。准确率 越高表明聚类算法在该类上出错的概率越小。则聚类精确度可定义为: ≠ p‘ (6) 其中fp,是错分到簇C.且属于其他簇的文档数。【p.是正确分到簇C.中的文档数。 为了对本文提出的算法进行分析、评价,我们将它和K—Means算法及Apriori算法进行比较。实验中采用文档集从Internet上搜 索得到的。整个实验在Windows 2003 server上进行,计算机CPU为Inte3.5GHZ。从lnternet上搜索的文档由历史、地理、数学、科技、 文物、计算机、体育、生物、艺术、文化等10个大类,每类30篇文章。通过加权矩阵关联规则来构造文档的空间矩阵,并根据式f31计 算词频及文档矢量矩阵中各个元素的权值,我们以3个特征词项为例(对多个特征词项也一样构造),然后利用式f1)和式(21计算支持 度suppo ̄和可信度conf,得到表l的关联规则表。其巾suppo ̄l表示特征词项1对特征词项2的支持度,suppo ̄2表示特征词项2 对特征词项3的支持度,同理confl示特征词项1对特征词项2的可信度.conf2示特征词项2对特征词项3的可信度 其中特征词项的“中国”,“人们”,“共产党”的平均支持度为Avgsupport为0.3146,可信度为:0.6058。然后根据矩阵加权关联算 法进行相似度计算。根据计算结果可以得到聚类数日及聚类精确度,如表2所示。 从表2可以看出矩阵关联规则的空间粒度算法的执行时间比Apriori及K~均值算法的时间都要略长,影响时间的主要因数是 迭代的次数增加及增加了矩阵关联规则算法。但我们从表f2)的结果上发现矩阵关联规则的空间粒度算法的正确率大大地提高,比 Apriori提高了11.6%,比K一均值提高了9.1%.主要是冈为进行了对矩阵的初始化进行聚类,然后利用了矩阵关联规则算法进行进 一步分析,得到结果后再次根据计算结果的相似度进行聚类。使得正确率大大的提高。 以上是针对小文档进行的关联聚类分析.接着我们分析 针对大型文档数据库的文档数随时间的变化.由图l可以看 表1 不同特征项之间的关联表 ’ . 出矩阵关联规则的空间粒度算法和K一均值算法存500—800 之间的程序执行时间比较接近。但在900以L矩阵关联规则 的空间粒度算法的时间明显比K一均值算法的时间要少很 墓堕1日 摹霸 多.这主要由于新算法在执行剪枝后矩阵的元数变小的原 因。实验表明该算法对于大文档的时间复杂度比较理想。 5结束语 该文在原有的关联算法的基础上,提 了一种矩阵加权关联规则的 表2不同算法对文档的结果比较 空间粒度算法。该算法的核心是根据文档的特征向量提取文档的相似度, 再在该关联规则算法上进行聚类来寻找相似关系的频繁项日集 在粒度 空间中采用相似度阀值进行调整粒度的粗细问题 通过矩阵加权关联规 则算法进行聚类,因此在精度上有较大的提高。该方法是一个新的思路, 实验结果表明在解决多维数据有很好的效果。但在中小文档中的时间复 杂度比以往的算法略高点,但在对混合数据的处理能力上有一定的欠缺, 下阶段将继续进行算法的改进以期望能对混合数据进行处理。 参考文献: 【1]HUANG M X,YAN X W,ZHANG S C.Review and perspective of query expansion techniques.Computer Applications and Software,2007,24(1 1):1— 4(in Chinese with English abstract). [2]KURAMOCHI M.Karypis G Frequent Subgraph Discovery//Pro—caedings of the 2001 IEEE International Conference on Data Mining.San Jose,Cali— fornia,USA,2001:3 1 3—320. 『3]BEBEL B,KROLIKOWSLD Z,WREMBL R.Formal Approach to Modeling a Muhiversion Data Warehouse fJJ.Bulletin of the Polish Academy of Sci— 图1文档数一时间变化曲线图 ences.2006.54(1):51—62. 『4J AGRAWAL R,IMIELINSKI T,SWAMI A.Mining Association Rules between Sets of Items in Large Database[C]//Proceedings of the ACM SIGM OD Conference on Management of Data.Washington,USA:ACM Press,1993. [5】MEIDLDI W,NIEDERREITER H.Counting functions and expected values for the k-error linear complexity[J].Finite Fields Appl,2002,8: 142一l54. . [6 MEI6】DLDI W,NIEDERREITER H.Linear complexity k-error linear complexity,and the discrete fourier transform[J].Complexity,2002,1 8: 87—103. [7]MULLER K,MIKA S,RATSCH G.An Introduction to Kernel-based Learning Algorithms[J].IEEE Trans.on Neural Networks,2001,12(2): 181—201. 【8]王伦文.聚类的粒度分析lJ】.计算机工程与应用,2006,42(5):29—3l,65. f9]h东坡,白硕,李国杰.聚类、分类巾的粒度原理【J】.计算机学报,2002,25(8):810—816. [10]李杰,徐勇,朱昭贤.模糊C均值算法参数仿真研究[JJ.系统仿真学报 2008,20(2):509—513. 本栏目责任编辑:闻翔军 数据库与信息管理* 261