您的当前位置:首页正文

基于遗传算法的准确分类规则知识发现

2023-08-19 来源:步旅网
维普资讯 http://www.cqvip.com

2007全国通信新理论与新技术学术大会——信息处理与其它 基于遗传算法的准确分类规则知识发现 李佑文夏士雄周勇 (中国矿业火学计算机科学与技术学院江苏徐州221008) 摘要:针对传统算法处理数据分类问题计算量大,易陷入局部最优解的缺陷,本文结合遗传算法 的全局搜索特性,给出了基于遗传算法的准确分类规则知识发现方法。首先分析了用遗传算法进 行分类规则挖掘的关键技术,给出个体编码、适应度函数的设计、遗传操作算子的设计;然后从 理论上详细阐述了遗传算法的准确分类规则挖掘的方法;最后开发了基于JBui1der2006平台的仿 真程序,从标准数据库中发现了准确的分类规则,实验结果验证了算法的有效性 关键词:数据挖掘;遗传算法;分类规则; 中图分类号:TP274 文献标识码:A Knowledge Discovery of Accurate Classiicatifon Rules Based on Genetic Algorithm LI You-Wen ZHOU Yong XIA Shi-Xiong (School ofComputerScience andTechnology,ChinaUniversityofMining andTechnology,Xuzhou,Jiangsu 221008,P.R.China. LI You—Wen:leiyuziqq@I 63.com;ZHOU Yong:yzhou@cumt.edu.cn) Abstract:In order to solve the defects of tradifional data classification algorithms.such as complex computation and easy to fall into a local optimal solution,this paper purposed a method to discover the knowledge of accurate classification rules based on the global search property of Genetic Algorithm. Firstly,we analyzes the key technologies for the implementation of classification rules based on GA, including individual encoding,fitness function design and GA’s operators design,etc.Then,we give a particular method in theory of how to mining accurate classiifcation ulres using Genetic Algorithm.At last the experiment were given by the simulate processes on JBuilder2006 could discover the accurate classiifcation ulres from he tstandard database.and it illustrated the effectiveness of hits algorithm. Key words:data mining;genetic algorithm;classification ulres; 1引言 20世纪70年代以来,数据库技术得到了迅速发展及广泛应用。数据反映了客观事物发展变化的历史 过程,是一笔宝贵的财富,但是寻找隐藏在其中的有用信息无异于大海捞针。由于缺乏挖掘大量数据背后 隐藏知识的有效手段,导致了“数据丰富但知识贫乏”(data rich but knowledge poor)。随着计算机技术的 飞速发展和企业界不断提出的新需求,数据挖掘(data miming)技术应运而生。数据挖掘是指从大型数据 库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在的有用信息【l J。数据分类是数据 挖掘的一个重要方面,目前常用的分类规则挖掘方法有遗传算法、决策树方法、神经网络、粗糙集方法等。 分类的主要目的是分析输入的数据,通过在训练样本数据集中的数据表现出来的特性,为每一类找到一种 准确的分类函数或构造出一个分类模型(即我们通常所说的分类器Classiifer,一般用规则或决策树模式表 示),并用该模型对未来的数据进行分类,尽管这些未来的数据类别是未知的,我们仍然可以由此预测出这 维普资讯 http://www.cqvip.com

2007全国通信新理论与新技术学术大会——信息处理与其它 些新数据所属的类,即我们获得了这个类的知识发现。 2数据分类的步骤和分类规则 2.1数据分类的步骤 一般来说数据分类都可以分成两步 J: (1)建立一个描述已知数据集类别或概念的模型。是指在 ̄HiJ al练样本类别情况下,通过学习建立 相应模型,通常分类学习所获得的模型可以表示为分类规则形式、决策树形式或数学公式形式。 (2)利用所获得的模型进行分类操作。分类操作前要对模型分类准确率进行评估,例如使用保持 (holdout)方法【引。保持方法是一种简单的估计分类规则准确率的方法,即把给定数据随机地划分成两个独立 的集合:训练集(2/3)和测试集(1/3)。使用训练集导出分类规则,然后在测试集上计算其正确率,本文采用 的评估方法是对第一步得到的分类规则分别计算其在训练集和测试集中的适应度值,若分类规则在训I练集 和测试集中的适应度值越接近,则说明分类的精度越高。 2.2分类规则 数据分类的核心是设计分类器。要构造分类器,需要有一个训练集作为输入,训练集是构造分类器的 基础。本文的分类器采用的是分类规则的形式。最一般的分类规则如下所示: (Vl=I1)八(V2 I2)八…A(v 一 )then c J 其中,if部分是规则的前提,then部分是规则的结论。Ii(f=1,2… )表示对应属性值的集合,=表示 in,J表示类别。本文采用的是PlayTennis训练集,含4个特征属性和1个类别属性。对于该数据集,分类 的目的是为了了解在什么样的天气适宜去PlayTennis,所以最后得到的规则形式应该是这样的:“if(Outlook =Overcast)and(Temperature=Hot)and(Humidity=High)and(Wind=Weak)then PlayTennis=Yes”, 一旦建立规则之后,就可以用来预测未来在什么样的天气适宜PlayTennis了。 3基于遗传算法的准确分类规则知识发现 3.1分类规则的编码 使用遗传算法进行分类规则挖掘时,首先要构造规则的编码形式。本文采用Michigan编码方式,即每 条染色体代表一条规则,并且不对规则的结论部分进行编码,即参与进化的初始群体由同类个体组成,算 法运行一次得到一类个体对应的分类规则。即若数据库中的数据有n类,则需要将遗传算法运行Ii次,当 然,可以在多处理器,或PVM并行机群上同时分任务进行,则编码方式如下表1所示: 表1规则的编码结构 GENEI(A1) Weight Operator 、,alue GENE(An) Weight Operator 、,alue 其中,Value是值域,它在该属性的所有可能取值中取值。另外,为了加大规则的准确度,本文采用 的是可变长度的染色体,即在每个属性的所有可能取值中加入了一个新值“Any”。Value=“Any”表示该基 因上取什么值并不重要,其属性在这条规则中可以去掉,此时规则长度变短;Weight为权值域,其值是在 特征属性上取当前值(Value)个体数占所有个体数的百分比。设置Weight目的是为了忽略那些只出现了很 少次数的属性值,这个闽值一般设置为0.05—0.2;Operator是与特征属性相联系的操作运算符,对离散属性 而言,取“一’或“≠”符号,对连续属性而言,取“ ”或“)”符号。 161 维普资讯 http://www.cqvip.com 2007全国通信新理论与新技术学术大会——信息处理与其它 3.2适应度函数设计 对于前提为A,结论为C的分类规则,数据中存在4类不同的个体,如表2所列: 表2数据库中的规则以及与之匹配的记录数量 规则形式 lfAthen C lfAthen notC 匹配的记录个数 pp pn IfnotAthen C IfnotAthen notC np nn 为了计算规则的准确性,有如下的几个定义【4】 nn 定义3.1 规则的覆盖度comp=— pp七np 从覆盖度的定义可以看出它表示的是在所有的同类个体中这条规则的普遍性意义。规则的覆盖度越 大,表明在同类个体空间中符合规则前提的个体数目越多。 nn 定义3.2规则的置信度cf:— 一 PP+P 从置信度的定义可以看出它表示的是在所有符合规则前件的记录中它能正确判断记录所属类别的正 确率。规则的置信度越大,规则的可信度越强,因为它能更正确地判断个体。从某种意义上来说更加关心 的是规则的置信度,但与此同时又不能忽略规则的普遍意义,所以把规则的准确性定义为: 定义3.3规则的准确性accuracy=comp丰cf 为了得到高准确性的规则,定义规则的适应度函数等于规则的准确性,即: 定义3.4规则的适应度fitness=accuracy 3.3遗传操作[5] 遗传操作包括三个基本遗传算子:选择、交叉和变异。这三个遗传算子的操作都是按一定的概率进行 的,遗传操作使群体中个体高效地、有方向性地向最优解迁移,本节将讨论遗传算子的设计。 1)选择算子的设计:选择操作是建立在群体中每个个体适应度评估基础之上的选择优胜个体、淘汰 劣个体的操作,模拟的是自然界中的“物竞天择,适者生存”。本文采用轮盘赌选择策略和精英保存策略 相结合的方式;交叉算子的设计:2)交叉算子模拟的是自然界中的繁殖现象,交叉算子能够产生很多的新 个体,交叉时使用到交叉概率Pc。若Pc过小,则交叉很难发生,容易使遗传算法陷迟钝搜索;若太大, 则会使已经找到的较好模式遭到破坏,所以Pc一般在0.25—0.8之间,本文采用的是一种单点交叉的方法; 变异算子的设计:3)变异算子模拟的是自然界中的个体基因突变现象,在遗传算法中就是对个体编码随机 挑选一个或多个基因对其基因值作变动。变异概率Pm的设定主要是为了辅助搜索操作,维持群体多样性。 变异概率一般取在0.001—0.2左右。 3.4算法的步骤 采用遗传算法挖掘准确分类规则的步骤如下: Step 1确定分类所需特征属性和类别属性,并使用保持方法,随机生成2/3的数据库中的记录作为初 始训练集,另外l/3作为测试集。 Step 2预处理数据并产生初始群体P(t),设置进化代数计数器t=0,和最大进化代数为MAXGEN。 Step 3选择操作。先依据定义3.4计算群体P(t)dP所有个体的适应度值,再利用轮盘赌选择策略和精 62 维普资讯 http://www.cqvip.com 2007全国通信新理论与新技术学术大会——信息处理与其它 英保存策略相结合的方式进行选择操作。 Step 4交叉操作。把P(t)中的个体随机配对,再进行单点交叉运算。 Step 5变异操作。对P(t)中的个体进行变异运算,变异完成后更新进化代数计数器t=t+l; Step 6终止条件判断。若t<MAXGEN,转到Step 3,若t=MAXGEN,则终止并输出最佳规则。 4实验及分析 4。1算法的实验数据及参数设置 本文选择的是Play Tennis数据集f6J,数据如下表2: 表2 PlayTennis数据集 DI D2 D3 D4 D5 D6 D7 Rain Sunny Overcasl Rain Rain Rain Overc ̄l C0oI HOl HOl Mild COOI COOI COOI Hi曲 Hi曲 Hi曲 Hi曲 Norn'laI NorlnaI Norn'laI Wmk Strong Wealc W ak k Strong Strong Yes NO Yes Yes Y s NO Y s D8 D9 D10 DII Sunnv Sunny Rain Sunnv Mild CooI Mild Mlid Hi曲 NorlnaI Norn'laI Norn'laI W alc W如k W ak Strong NO Yes Y s Yes Dl2 DI3 DI4 DI5 Overcasl OvercasI Sunny Rain Mild HOl Mild Mild Hi曲 Norn'laI Norn'laI Norn'laI Strong Wealc W ak Strong Y s Y s Yes NO DI6 DI7 Dl8 D19 Overc ̄l Sunnv Ovcrcasl Sunnv HOl C0oI C0oI Hol Hi曲 Hi曲 Norn'laI Norn'lai Strong W ak k Strong Y色s NO Yes Yes D20 D2I R且in Overc ̄l HOl Mild Hi曲 Norn'laI Strong W ak NO Yes D22 D23 D24 D25 Rain Sunny Rain Sunny HOl C0oI COOI HOl Hi曲 Hi曲 Hj曲 High W ak Strong Strong W ak Y色s NO N0 NO D26 Overcasl Mild Norn'laI Strong Y s D27 Overcasl COOI Hi曲 Strong Y s D28 D29 Rain Sunny Mild COOI Hi曲 Norn'laI Strong Strong NO Y s D3O Overc ̄t H0l Hi曲 W ak Y s D3I D32 Sunnv Rain HOl HOI Hj曲 Norn'laI Strong Strong NO NO D33 Overc ̄t MiId Hi曲 Strong Y s 该表有33个数据,被分成了两类,每个数据记录包含有4个特征属性和1个类别属性。 163 维普资讯 http://www.cqvip.com 2007全国通信新理论与新技术学术大会——信息处理与其它 按照3.3中的分析,在实验中遗传算法参数配置如下:种群大小=ll、染色体长度=4、最大进化代 数=50、交义概率PC=O.8,变异概率PM=0.05,权值域阂值=O.1。 4.2实验结果及分析 在本文进行实验时,对每一类遗传算法都分别运行了五次,并把五次运行的最优结果定为预测此类的 最好分类规则,最后得到的最优规则如表3所示,表中也分别给出了规则的适应度和正确率。 表3最优规则及其适应度、正确度 训练集/ ̄,lJ试集 训练集/测试 类别 最优规则 上的适应度 Yes No ifout1ook=Overcast andTemperature=Any andHumidity=Any andWind=Any称为:规则1) ifOutlook=Rain andTemperature=Any and Humidiw=Any and Wind=Strong(称为:规则2) 0.54/0 5 O.5,0.5 集上的正确率 1 011.0 1.0/1.0 No ifOutlook=SunnyandTemperature=Any andHumidity=Hi曲and wind=Any(称为:规则3) O.5,0.5 1.O/1.O 从上表中可以看出,规则在训练集和测试集上的适应度非常接近,说明这些规则在训练集和测试集上 都有较好的置信度和覆盖度。更值得欣喜的是,挖掘出的规则在训练集和测试集上的正确率都是1.0,即这 些规则可以在这个数据集上能够将具有这些规则形式的所有记录都识别正确。手动将这些规则与表2中的 数据记录相比较匹配,可以验证这些规则确实都具有很高的准确性: 表2中与规则l前提部分相匹配的数据有:D3、D7、D12、D13、D16、D18、D21、D26、D27、D30 和D33,这l l条记录的类别属性都是“Yes”;表2中与规则2前提部分相匹配的数据有:D6、D15、D20、 D24、D28和D32,这6条记录的类别属性都是“No”;表2中与规则3前提部分相匹配的数据有:D2、 D8、D17、D23、D25和D31,这6条记录的类别属性都是“No”。可以看出,这些数据的结论部分也与规 则的结论部分相比配,说明这些规则具有极高的准确性(正确率为100%),可以使用它们来预测将来的记 录类别。 下面仅给出在得到规则1时JBuilder的输出界面及其代数与平均适应度的关系: 图2代数与平均适应度的关系 幽1规则1的运行界血 从图2中可以很明显的看出,在得到这条规则的时候,随着遗传算法代数的增加,群体的平均适应度 在开始是逐渐增加的,并且在最后趋于收敛,这也证明了本文提出的算法的可行性与有效性。 5结束语 本文针对利用遗传算法进行数据挖掘研究领域,提出了一种基于遗传算法的数据分类方法,用遗传算 法挖掘出了准确的分类规则,仿真结果表明本文算法挖掘出来的分类规则都具有100%的正确率。另外, 由于本文所使用的数据量小,所以遗传算法的收敛时间较短,但是针对大型数据库而言,遗传算法的每一 次训练达到收敛往往需要几百次,甚至几千次迭代,算法的效率较慢,严重影响了训练时间,如何通过多 维普资讯 http://www.cqvip.com

2007全国通信新理论与新技术学术大会——信息处理与其它 处理器的并行计算减少分类时问,是下一步 I 作需要研究的问题。 参考文献 【l】夏火松.数据仓库与数据挖掘技术【M】 第二版 北京:科学出版社,2004 【2】张磊.基于混合遗传算法的分类规则挖掘方法及其并行实现【D】.重庆:重庆大学,2004 【3]Han Jiawei,Micheline Kamber著.范明,盂小峰等译.数据挖掘概念与技术【M】.]t京:机械工业出版社,2001 【4】A.A Freitas.A survey of evolutionary algorithms for data mining and knowledge discovery[A].Advances in evolutionary compution[C].Berlin:Springer-Verlag.2002.8 l 9—845 【5】Written By Xuan GuangNan【Japan】and Cheng RunWei.Translated By Yu YinJie and Zhou GenGui.Genetic Algorithm and Engineering Optimization[M].BeiJing:Tsinghua University Press,2004 【6】李雄飞,李军.数据挖掘与知识发现【M】.笫二版.北京:高等教育出版社.2003 基金项目:国家自然科学基金项目(50674086),高等学校博士学科点专项科研基金项目(20060290508),中国矿业大学青 年科研基金(2006A047) 作者简介: 李佑文(1985一),男,硕士研究生,主要研究领域为人工智能,计算机应用技术;夏士雄(1961一),男,博士,教授, 博士生导师,主要研究领域为模式识别,人工智能; ̄J(1974--),男,江苏徐,、I'I.L,博士,讲师,主要研究领域为人 工智能,无线传感器网络。 l65 

因篇幅问题不能全部显示,请点此查看更多更全内容