基于Weka平台的机器学习方法探究
2021-09-12
来源:步旅网
ISSN 1009-3044 E—mail:eduf@CCCC.net.en http://www.dnzs.net.en Teh+86—55 1—5690963 5690964 Computer Knowledge and Technology电脑知识与技术 Vo1.8,No.10,April 2012. 基于Weka平台的机器学习方法探究 李德有,李凌霞,郭瑞波 (哈尔滨金融学院,黑龙江哈尔滨150030) 摘要:针对机器学习技术理论性强、内容抽象、实践难的特点,提出了以weka软件为平台的机器学习实践方案,并详细阐述了实施 过程。通过对结果分析,达到使用Weka实践机器学习技术解决实际问题的目的。 关键词:机器学习;数据挖掘;WEKA 中图分类号:G642 文献标识码:A 文章编号:1009—3044(2012)10—2334—04 Research of Machine Learning Based on Weka Platform LI De—you,LI Ling—xia,GUO Rui—bo (Harbin Finance University,Harbin 1 50030,China) Abstract:For the characteristics of the strong theoretical,content abstraction and hard practice during the Machine learning,we present Machine learning practical solutions based on Weka platform in this paper,and elaborate the implementation process of the experimental program.By analyzing the results,.Achieved using the Weka practice ofmachine learning technology tO solve practical problems. Key words:machine learning;data mining;WEKA 数据挖掘是20世纪90年代中期兴起的新技术,它是指从大量的、不完全的、有噪声的、随机的实际应用数据中,提取隐含在其 中的、人们事先不知道的、但又是潜在有用的信息和知识的过程n 。随着信息技术的发展,人们对数据挖掘越来越重视,特别在经 济、统计和金融领域的应用和实践越来越成熟,机器学习技术是数据挖掘中非常有用的工具之一,新西兰怀卡大学开发的Weka机 器学习软件是很受欢迎的一个实用工具。 1 Weka平台 Weka工作平台汇集了当今主要的数据挖掘算法和数据预处理工具,包含能处理绝大多数的标准数据挖掘问题的方法:回归、 分类、聚类、关联规则挖掘以及属性选择。它为数据挖掘实验的整个过程提供了广泛的支持,包括准备要输入的数据、统计评估数 据挖掘方案,以及可视化输入数据和数据挖掘结果等。使用户能够很容易地将各种数据挖掘算法应用于其要处理的数据集中。 Weka的图形用户界面如图1所示,用户可以通过操作运用其所包含的工具组件,比较不同的数据挖掘算法,找出能够解决当前问题 的最有效的方法。 . 图1 Weka的图形用户界面 Weka的主要图形用户界面Explorer,在Explorer界面顶部的六个不同的标签,表示六个不同的面板,分别对应着Weka所支持的 不同的数据挖掘方式,如图2所示。 收稿日期:2()12-03—02 基金项目:黑龙江省教育厅科学技术研究项目——基于机器学习的农村信用社经营效益监测研究(项目编号:12521065) 作者简介:李德有(1972一),男,黑龙江哈尔滨人,哈尔滨金融学院副教授,主要研究方向为金融计算机应用。 2334…人工智镌厦识别技术 m 本栏目责任编辑:唐一东 第8卷第10期(2012年4月) Computer Knowledge and Technology电脑知识与技术 St 毪 E 毪 鼍 ** 翠 毪 ¨l 爨 毫 琏 茸强 口 h榔慷髓t鞋 衄 越 薯{ 薯 § tⅢ=Ⅲ 藏 ii 图2 Weka的用户界Explorer 在Explorer窗口顶部六个标签的功能分别是: 1)预处理(Preprocess):选择数据集,并以多种方式对其进行修改。 2)分类(ClassifV):训练用作分类或回归的学习方案,并对它们做评估。 3)聚类(Cluster):学习数据集的聚类。 4)关联(Associate):学习数据的关联规则并对其评估。 5)选择屙胜(Select attributes):在数据集中选择最相关的部分。 6)可视化(Visualize):查看不同的二维数据点图并与其互动。 2基于Weka平台的机器学习过程 该文以数据挖掘技术在通信公司客户关系管理中的应用为例,具体介绍如何应用Weka平台进行关于决策树的机器学习技术 实践。 2.1数据准备 由于数据挖掘要处理的数据来自不同的数据源,数据量大,数据结构复杂,还有大量数据重复、歧义,并且里面空缺数据、噪声 数据、冗余数据等对数据挖掘有负面影响的数据。数据准备主要包含以下三个方面: 1)确定项目目标。了解此次数据挖掘需要处理的任务,确定项目目标,制定挖掘计划,并制定一个针对数据挖掘结果的评价 准。这个项目目标应该是适用于选取的聚类分析方法来达到的。 2)数据收集。根据挖掘项目的目标,确定项目涉及的业务对象,确定要进行挖掘所需要的数据源。 3)数据集成。将多个数据源中的多种数据整合在一起,数据集成的目的是解决语义模糊性,统一数据格式,消除冗余,保证 据的一致性、完整性和有效性,为数据挖掘打下良好的基础。 2.2数据载入 Weka存储数据的原始方式是ARFF格式,大多数电子表及数据库程序允许用户将数据导人CSV格式的文件中,Weka能够直接 读取CSV数据表。教师为学生提供数据集,我们选择的数据源主要有客户档案记录、客户营销记录、销售单主表、销售退货表、客户 联系表、客户投诉记录等,数据集成后生成客户行为特征表电子表格customerbehavior.xls,在MicrosoftExcel中将此文件存储为eus— tomer behavior.CSv,Explorer能够直接读取CSV电子数据表格。学生只需要将此数据集通过Weka的图形用户界面Explorer载人系 统,供下面的数据挖掘使用。 单击图1的“Explorer"按钮,进入“Exp1orer"界面,如图2所示。单击“Preprocess”标签,进入预处理阶段。单击“Openfile”按钮, 通过弹出的对话框选择我们的数据文件customer behavior.CSV,在这里假定我们的数据文件中的数据是完整的、无噪声的、一致的。 载人数据文件后,面板中会显示所载入的数据集包含的实例个数和属性项数,如图3所示。由图可知所载入的数据集含有14 个实例和12个属性。这里我们选custom package作为分类属性。 可通过单击复选框和Remove按钮来删除属性。单击All则选中全部属性,None表示不选,Inve ̄则反向转换目前的选择。通过 点击Undo按钮撤销所做的改动。点击Edit按钮会弹出一个编辑器。通过编辑器可检查数据,搜索具体的值并对其进行编辑,以及 删除实例和属性。 本栏目责任编辑:唐一东 * 人工智能硬识别技术一2335 第8卷第1O期(2012年4月) Computer Knowledge and Technology电脑知识与技术 weka.classi£ie rs.trees.J48一C 0.25一M 2 data l4 12 Short messages Honternet times ⅡAP Internet Time 6豫S Data F1o%r IP long—distance frequency of use the number of calls in concessionarY period Custom Packge Frequency of u.se real 靶n I霉n 雌n啦=h北吐 昌 :1ocal cal1s InProvince times Bet ̄eenProvinc e times 啦盹 : Personalized service Test mode: 10-fold cross-validation …Classifier model cfull training set)一 J48 pruned tree Custom Packge=yes:yes f6.0 Custom Packge=no:no c8.0) NumbeK of Leaves: 2 Time taken to buiId mode1:0.03 seconds —一Stratified cEOSS—validation一Summary— Cotrectly C1assified Instances Incorrectly Classified Instantes Kappa statistic l4 0 l 0 0 l00 0 % Mean absolute error ROOt mean squated eEroe Relative 8bsolute errot Root relative squared error Total Number o£Instances 0 0 14 % TP Rate l FP Rate 0 0 Re call F—Measure l R0C j l l Weighted Avg. 1 l l l 0 a b C一一classified as 6 0 I a=yes 0 8 I b=no 图5输出结果 由图5可知,100%的实例在10一fold CROSS—validation验证方法中是正确分类的,这表明,测试集所得到的结果是客观的。 3结束语 机器学习技术具有理论性强、内容较为抽象的特点,只有通过像Weka这样实用可靠的平台才能真正解决实际问题,但Weka平 台本身也有一定的局限性和不足,随着数据挖掘研究的深入和技术的不断提高,我们将研究其它数据挖掘工具作作为机器学习技 术实践补充的可行性。 参考文献: [1]赵阳.Weka系统及其在数据挖掘教学中的应用[J].科技信息,2008(30):409—410. [2】孟晓明,陈慧萍,张涛.基于WEKA平台的Web事务聚类算法的研究[J].计算机工程与设计,2009,30(6):1332—1)34. [3】高明霞,方娟,毛国君.开源工具在机器学习教学中的应用『J1.计算机教育,2009(3):100—102. 本栏目责任编辑:唐一东 人工■幢及识剐技术…2337