学号: xxxx 姓名: xxx
1. (20分)考虑下表的数据集。 顾客ID 性别 车型 衬衣尺码 类 1 男 家用 小 C0 2 男 运动 中 C0 3 男 运动 中 C0 4 男 运动 大 C0 5 男 运动 加大 C0 6 男 运动 加大 C0 7 女 运动 小 C0 8 女 运动 小 C0 9 女 运动 中 C0 10 女 豪华 大 C0 11 男 家用 大 C1 12 男 家用 加大 C1 13 男 家用 中 C1 14 男 豪华 加大 C1 15 女 豪华 小 C1 16 女 豪华 小 C1 17 女 豪华 中 C1 18 女 豪华 中 C1 19 女 豪华 中 C1 20 女 豪华 大 C1 (1)计算整个数据集的Gini指标值。 (2)计算属性性别的Gini指标值
(3)计算使用多路划分属性车型的Gini指标值 (4)计算使用多路划分属性衬衣尺码的Gini指标值
(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么? 解:(1) 类 顾客 c0 10 c1 10 Gini=1-(10/20)^2-(10/20)^2=0.5 (2) 性别 男 女 c0 6 4 c1 4 6 Gini=[{1-(6/10)^2-(4/10)^2}*1/2]*2=0.48 (3)
车型 家用 运动 豪华 c0 1 8 1 c1 3 0 7 Gini={1-(1/4)^2-(3/4)^2}*4/20+{1-(8/8)^2-(0/8)^2}*8/20+{1-(1/8)^2-(7/8)^2}*8/20=26/160=0.1625 (4) 尺码 小 中 大 加大 c0 3 3 2 2 c1 2 4 2 2 Gini={1-(3/5)^2-(2/5)^2}*5/20+{1-(3/7)^2-(4/7)^2}*7/20+[{1-(2/4)^2-(2/4)^2}*4/20]*2=8/25+6/35=0.4914 (5)
比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。
2. (20分)考虑下表中的购物篮事务数据集。 顾客ID 事务ID 购买项 1 001 {a,d,e} 1 0024 {a,b,c,e} 2 0012 {a,b,d,e} 2 0031 {a,c,d,e} 3 0015 {b,c,e} 3 0022 {b,d,e} 4 0029 {c,d} 4 0040 {a,b,c} 5 0033 {a,d,e} 5 0038 {a,b,e}
(1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。 (2)使用(1)的计算结果,计算关联规则 {b,d}→{e}和{e}→{b,d} 的置信度。
(3)将每个顾客ID作为一个购物篮,重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。 (4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d} 的置信度。 答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。
(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。
(3)同理可得:{e}的支持度为4/5=0.8,{b,d}的支持度为5/5=1, {b,d,e}的支持度为4/5=0.8。
(4)c[{b,d}→{e}]=5/4=1.25,c[{e}→{b,d}]=4/5=0.8。
3. (20分)以下是多元回归分析的部分R输出结果。 > ls1=lm(y~x1+x2) > anova(ls1)
Df Sum Sq Mean Sq F value Pr(>F) x1 1 10021.2 10021.2 62.038 0.0001007 *** x2 1 4030.9 4030.9 24.954 0.0015735 ** Residuals 7 1130.7 161.5
> ls2<-lm(y~x2+x1) > anova(ls2)
Df Sum Sq Mean Sq F value Pr(>F) x2 1 3363.4 3363.4 20.822 0.002595 ** x1 1 10688.7 10688.7 66.170 8.193e-05 *** Residuals 7 1130.7 161.5
(1)用F检验来检验以下假设 (α = 0.05)
H0: β1 = 0 Ha: β1 ≠ 0
计算检验统计量;是否拒绝零假设,为什么?
(2)用F检验来检验以下假设 (α = 0.05)
H0: β2 = 0 Ha: β2 ≠ 0
计算检验统计量;是否拒绝零假设,为什么?
(3)用F检验来检验以下假设 (α = 0.05)
H0: β1 = β2 = 0
Ha: β1 和 β2 并不都等于零
计算检验统计量;是否拒绝零假设,为什么?
解: (1)根据第一个输出结果F=62.083>F(2,7)=4.74,p<0.05,所以可以拒绝原假设,即得到
不等于0。
(2)同理,在α=0.05的条件下,F=20.822>F(2,7)=4.74,p<0.05,即拒绝原假设,得到
不等于0。
(3)F={(10021.2+4030.9)/2}/(1130.7/7)=43.4973>F=(2,7)=4.74,即拒绝原假设,得到
和
并不都等于0。
4. (20分)考虑下面20个观测值:
[1] -20.00 -0.516 -1.249 -0.510 25.000 [6] -0.561 -0.928 -0.023 0.714 0.374 [11] -0.377 0.830 0.838 0.874 -1.306 [16] 1.138 1.087 -1.489 2.524 0.713
(1)用3*S 标准来检测该数据中是否存在异常值。 (2)用1.5*IQR 标准来检测该数据中是否存在异常值。
要求提供均值、标准差、IQR值和所用的区间,以及你判断的依据。 解:数据放入R运行得
> hhh=c(-20.00,-0.516,-1.249,-0.510,25.000, + + -0.561,-0.928,-0.023,0.714,0.374, + + -0.377,0.830,0.838,0.874,-1.306, + + 1.138,1.087,-1.489,2.524,0.713) > mean(hhh) [1] 0.35665
> sqrt(var(hhh)) [1] 7.405346
> jjj<-(hhh-mean(hhh))/sqrt(var(hhh)) > which(abs(jjj)>=3) [1] 5
> Q1=quantile(hhh,0.25) > Q3=quantile(hhh,0.75) > IQR=Q3-Q1 > Q1
25% -0.65275 > Q3 75% 0.847 > IQR 75% 1.49975
> kk<-Q1-1.5*IQR > ll<-Q3+1.5*IQR > which(hhh (1)由以上数据处理可得第五个数据25.00为异常值。 (2)由数据分析可以得出第一个-20.00和第五个25.00均为异常值。 5. 简述题 (20分)。 (1) 在这门课中你学习了几种聚类分析的算法?简述这几种算法的基本工作原理。 答:(1)学习了三种聚类分析算法,分别为系统聚类分析、K均值分析和DBSCAN分析。 其中系统聚类又分为许多种计算规则,主要的有最短距离法、最长距离法、重心法、离差平方和法及类平均法等,其主要思想是在不同方法下把客观认为最相近的两类合并为一类,再次执行并类步骤,那么就可以把所有的观测值都聚为一类,对于想要知道分多少类的具体情况有很大的帮助,可以依照树状聚类图得到清晰的表示。 K-均值聚类原理是依一定观测值的均值来确定聚类中心,从而根据其他的观测值和中心的距离来判断归为哪一类中。该聚类方法事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高。但对于想要知道其他几类的分类情况就需要重新计算分析。 DBSCAN分析算法工作原理是对一组观测值优先聚合靠的最近的两个值,然后再寻找下一个靠的最近的值,依次类推,最后得到用户想要的簇的种类。其中可能会出现噪声点,那么根据区间半径考虑是否舍弃的情况。 (2)关联规则挖掘任务主要分为哪几个主要的子任务?简述你学到的算法在这些子任务中的工作原理。 答:主要分为两个子任务:频繁项集的产生和关联规则的产生。 第一种算法是Apriori算法是基于支持度的剪枝技术,系统地控制候选项集指数增长。根据先验原理,对一个系统所有的项集从最简单的集合到最复杂的集合采取逐层检验步骤,计算各项的支持度和置信度大小和阕值比较,即测试过程;对指定的非频繁项集和包含该非频繁项集的非频繁项采取舍弃操作,即剪枝过程;直到没有新的非频繁项集产生时,执行算法结束过程。 因篇幅问题不能全部显示,请点此查看更多更全内容