一、对我国30个省市自治区农村居民生活水平作聚类分析
1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中抽取30个样本,指标数据如下:
农村居农产品价格指地区 数(上年(亿=100) 元) 水平(元) 支出合计收入(元) (元) XX XX XX XX XX XX XX XX XX 98.27 103.03 93.04 48.31 12886 7814 3867 4500 4486 5739 4663 4536 13609 8196 9254.8 4936.7 3844.9 3663.9 4460.8 4489.5 4147.4 4391.2 10210.5 6542.9 13262 10075 231.7 441.1 153.9 8.0 80.9 51.7 18.4 99.5 21.2 42.8 258.4 569.8 顷) 人) 农村住宅投资农村居民消费农村居民民家庭生活消费人均纯(万公人数(万积2008 企业就业耕地面农村私营99.70 441.75 100.43 168.71 99.83 33.17 5958 6317.3 4736 4055.8 5530 7147.2 6908 4085.3 6237 5534.6 6211 11830.1 13978 244.0 102.90 162.05 103.77 71.65 98.07 126.45 102.23 2.12 99.92 284.55 9118 4763.8 - .可修编 .
- - -
XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX 100.25 513.75 99.08 412.48 98.04 176.35 96.81 236.53 101.23 566.90 99.07 729.47 96.30 210.06 90.61 298.41 94.95 337.44 89.25 248.80 101.91 88.99 26.22 80.12 9878 4447 6879 4397 5733 4061 4758 4513 5880 3561 3846 3652 4748 2926 3603 3683 2975 3684 3894 3590 8928.9 4013.3 5498.3 3911.6 4807.2 3682.2 4090.8 4310.4 5515.6 3455.3 3446.2 3624.6 3897.5 2852.5 3398.3 3793.8 2942.0 3863 4675 3457.9 11303 1920.9 5285 5730.2 7427 1330.1 5789 2827.1 6990 7515.3 5524 7926.4 5832 4664.1 5622 3789.4 7890 2830.7 4543 4217.5 5275 727.5 398.3 105.9 113.1 173.2 273.6 137.7 66.4 104.5 124.4 89.0 5.3 5277 2235.9 36.7675 5087 5947.4 3472 4485.3 3952 6072.1 4105 4050.3 3425 4658.8 542.7 1107.1 10.5 43.6 140.3 25.4 41.3 1.7 22.0 11.4 16.7 18.7 96.94 456.10 96.11 137.22 96.50 158.97 95.83 151.79 100.22 94.61 99.39 92.87 97.33 63.63 29.51 79.35 4643 4124.6 数据来源:《中国统计年鉴2010》. 2、将数据进行标准化变换:
- .可修编 .
- - -
耕地农产品价格指数地区 (上年=100) (亿元) 水平(元) 支出合计(元) 纯收入(万(元) 公顷) 人) XX XX XX XX XX XX XX XX XX XX XX XX XX XX XX 0.09 1.33 0.47 0.65 0.50 1.30 1.52 0.04 1.12 0.52 0.61 0.30 0.04 -0.28 0.86 0.30 -0.67 -0.91 1.24 -0.25 -0.99 -0.29 -0.78 -0.48 -1.16 0.38 1.64 1.08 -0.21 0.12 1.93 2.82 2.82 0.92 -0.56 -0.33 -0.33 0.14 -0.26 -0.31 3.09 1.06 1.69 -0.35 0.57 -0.36 0.14 -0.49 2.53 0.15 -0.46 -0.56 -0.12 -0.10 -0.29 -0.15 3.06 1.04 2.35 -0.36 0.46 -0.42 0.08 -0.55 2.37 -1.36 1.30 -1.29 -0.07 -0.48 -0.21 0.25 0.02 0.01 0.84 0.02 1.15 0.03 0.56 2.84 0.37 -0.78 -0.21 -0.44 -0.70 -0.06 -0.68 -0.51 1.20 3.66 2.31 -0.01 0.05 0.52 1.32 0.24 数(万农村住宅投资农村居民消费农村居民生活消费农村居民面积家庭人均2008 就业人营企业农村私2.60 -1.36 0.98 0.28 1.71 -0.75 -0.30 0.63 0.42 -0.97 -0.13 -0.42 0.27 -0.22 1.28 1.43 - .可修编 .
- - -
XX XX XX XX XX XX XX XX XX XX XX XX XX XX
-0.42 -1.89 -0.77 -2.24 1.04 -2.31 -0.25 -0.46 -0.36 -0.54 0.60 -0.85 0.39 -1.30 -0.03 0.46 0.67 0.19 -1.03 -0.74 1.32 -0.42 -0.31 -0.34 -0.64 -0.83 -1.01 -0.74 -0.23 -0.32 0.19 -0.68 -0.57 -0.64 -0.23 -0.92 -0.66 -0.63 -0.90 -0.63 -0.55 -0.67 -0.32 -0.20 0.47 -0.67 -0.68 -0.58 -0.43 -1.00 -0.70 -0.48 -0.96 -0.45 0.00 -0.67 -0.11 0.24 -0.32 -0.02 0.14 -0.14 -0.81 -0.56 0.26 -0.65 -0.52 -0.83 -0.67 -0.76 -0.71 -0.70 -0.18 -0.07 0.57 -0.42 -0.54 0.08 -0.30 -1.18 -0.30 -0.64 -0.36 -0.90 -0.74 -0.69 -0.92 0.71 0.18 0.75 0.02 0.24 -1.88 -1.44 -1.69 -1.43 -0.51 0.05 3、用K-均值聚类法对样本进行分类如下:
聚类成员 案例号 地区 聚类 距离 1 1 1069.19 - .可修编 .
- - -
2 XX 3 XX 4 XX 5 XX 6 XX 7 XX 8 XX 9 XX 10 XX 11 XX 12 XX 13 XX 14 XX 15 XX 16 XX 17 XX 18 XX 19 XX 20 XX 21 XX 22 XX 23 XX 2 3 4 3 2 3 3 1 2 1 3 2 4 3 3 3 4 2 4 4 4 3 3060.35 920.65 1506.42 577.12 2453.89 1487.95 5006.41 2094.38 2853.42 3015.14 1204.49 1612.46 1880.40 2088.55 1282.27 2230.15 2053.35 1119.98 1412.14 2541.05 1423.51 1138.14 - .可修编 .
- - -
24 XX 25 XX 26 XX 27 XX 28 XX 29 XX 30 XX
分四类的情况下,最终分类结果如下: 第一类:、XX、XX。
第二类:XX、、XX、、XX、XX、XX、XX。
4 3 4 4 4 4 4 2025.41 2196.63 1127.91 2123.67 4568.60 4247.12 1360.50 第三类:XX、XX、XX、XX、XX、XX、XX、XX、XX、XX、XX。 第四类:XX、XX、XX、XX、XX、XX、XX、XX、XX、XX、。
从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。
二、判别分析
针对以上分类结果进行判别分析。其中将XX作作为待判样本。判别结果如下: 案例数目 1 2 实际组 1 2 预测组 1 2 p 0.998 0.575 - .可修编 .
- - -
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 3 4 3 2 3 3 1 2 1 3 2 4 3 3 3 4 2 4 4 4 3 4 3 4 3 2 3 3 1 2 1 3 2 4 3 3 3 4 2 4 4 4 3 4 0.997 0.361 0.836 0.234 0.787 0.097 0.521 0.439 0.486 0.992 0.739 0.415 0.244 0.406 0.387 0.421 0.333 0.95 0.285 0.453 0.951 0.337 - .可修编 .
- - -
25 26 27 28 29 30 3 4** 4 4 4 4 4 **. 错误分类的案例
4 4 4 4 4 0.278 0.632 0.278 0.222 0.124 0.981 从上可知,只有一个地区判别组和原组不同,回代率为96%。 下面对XX进行判别:
已知判别函数系数和组质心处函数如下:
标准化的典型判别式函数系数 农产品价格指数 农村住宅投资 农村居民价格水平 生活消费支出 人均纯收入 耕地面积 就业人数 1 0.18 0.493 0.087 1.004 函数 2 0.398 3 0.394 0.687 -0.197 0.362 0.243 0.094 -0.817 0.565 0.381 -0.282 -0.041 1.019 -0.235 0.802 -0.631 -0.742 - .可修编 .
- - -
组质心处的函数 函数 组号 1 2 3 4 1 10.678 1.747 -0.962 -2.595 2 -0.369 -0.751 1.899 -1.177 3 -0.628 1.175 -0.032 -0.306
判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将XX的指标数据代入函数得:Y1=-1.08671 Y2=-0.62213 Y3=-0.84188
计算Y值与不同类别均值之间的距离分别为:D1=138.5182756
D2=12.11433124 D3=7.027544292 D4=2.869979346
经过判别,D4最小,所以XX应归于第四类,这与实际情况也比较相符。
三,因子分析:
分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。 经spss软件分析结果如下: (1)各指标的相关系数阵:
- .可修编 .
- - -
Correlation Matrix农产品价格指数1.000.356.296.351.187农村居民消费.3561.000.968.922.584消费支出.296.9681.000.864.625庭人均纯收入.351.922.8641.000.578业就业人数.187.584.625.5781.000Correlation农产品价格指数农村居民消费消费支出庭人均纯收入业就业人数 从中可以看出,大部分指标的相关系数都比较高,各变量之间的线性关系较明确,能够从中提取公共因子,适合因子分子。
(2)检验:
KMO and Bartlett's TestKaiser-Meyer-Olkin Measure of SamplingAdequacy.Bartlett's Test ofSphericityApprox. Chi-SquaredfSig..701145.58510.000 由上表可知:巴特利特球度检验统计量的观测值为145.585.相应的概率p接近为0.如果显著性水平a为0.05,由于显著性水平小于0.05,拒绝零假设,认为相关系数矩阵与单位阵有显著差异,同时,KOM值为0.701,根据Kaiser给出的度量标准可知原有变量适合进行因子分析
(3)各指标的贡献率如下表:
CommunalitiesInitialExtraction农产品价格指数1.000.979农村居民消费1.000.938消费支出1.000.923庭人均纯收入1.000.878业就业人数1.000.598Extraction Method: Principal Component Analysis. 从中可以看出,各个指标的贡献率都在百分之五十之上比较高。 - .可修编 .
- - -
Total Variance ExplainedInitial Eigenvalues% ofComponentTotalVarianceCumulative %13.44968.97368.9732.86717.34086.3133.52610.51796.8304.1402.79699.6265.019.374100.000Extraction Method: Principal Component Analysis.Extraction Sums of Squared Loadings% ofTotalVarianceCumulative %3.44968.97368.973.86717.34086.313Rotation Sums of Squared Loadings% ofTotalVarianceCumulative %3.20063.99763.9971.11622.31586.313 从上表中可以看出,第一个因子的特征根为3.449.解释原有五个变量总方差的68%,累积方差贡献率为68.973%。第二个因子的特征根为0.863,解释原有变量总方差17.34%,累计方差贡献率为86.313%。 (4)碎石图:
Scree Plot43Eigenvalue21012345Component Number
(5)因子载荷阵如下:
- .可修编 .
- - -
aComponent MatrixComponent12农产品价格指数.446.883农村居民消费.967-.052消费支出.952-.125家庭人均纯收入.936-.039就业人数.729-.258Extraction Method: Principal Component Analysis.a. 2 components extracted. 由上表可知,各指标在第一个因子上的载荷比较高,说明第一个因子很重要;第二个因子与原有变量的相关性较小,它对原有变量的解释作用不显著。为便于对各因子进行命名,对因子载荷阵实施正交旋转。
旋转之后的因子载荷阵:
aRotated Component MatrixComponent12农产品价格指数.150.978农村居民消费.936.251消费支出.944.177家庭人均纯收入.902.253就业人数.773-.019Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.a. Rotation converged in 3 iterations. (6)从上表可见,每个因子只有几个指标的因子载荷较大,因此可根据上表进行分类。将五个指标按高载荷分成两类:
12高载荷指标农村居民消费水平农村生活消费支出农村居民家庭人均收入农产品价格指数意义收支因子价格因子 - .可修编 .
- - -
四,主成分分析:
(1)各指标间的相关系数矩阵如下表所示:
Correlation Matrix农产品价格指数1.000.356.296.351.187农村居民消费.3561.000.968.922.584消费支出.296.9681.000.864.625庭人均纯收入.351.922.8641.000.578业就业人数.187.584.625.5781.000Correlation农产品价格指数农村居民消费消费支出庭人均纯收入业就业人数 可以看到有些指标之间的相关性较强,如果直接进行综合分析会造成信息重叠,所以用主成分分析将多个指标化成几个不相关的综合指标。 (2)求相关矩阵的特征值和特征向量:
特征根方差贡献率累计贡献率3.44968.97368.9730.86717.3486.3130.52610.51796.830.142.79699.6260.0190.374100 12345
从上表可知,前两个特征值累计贡献率已达86.313%。说明前两个主成分基本包含了全部指标具有的信息。因此,取前两个特征值,并计算相应的特征向量:
(3)由上述因子分子的因子载荷阵计算主成分的特征向量阵为:
农产品价格指数农村居民消费水平消费支出家庭人均年纯收入就业人数compoent120.1351121.0184540.280371-0.0599770.276022-0.1441750.271383-0.0449830.211366-0.297578 所以,前两个主成分为:
第一个主成分:F1=0.135112 X1+0.280371X2+ 0.276022X3+0.271383X4+0.211366X5 第二个主成分:F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5
在第一主成分中第二、三、四个指标的系数较大,这三个指标起主要作用,刻划了农
- .可修编 .
- - -
居民的收入支出状况的综合指标。
在第二主成分中,第一个指标系数较大,是农产品价格水平指标。 (4)因子得分:
Component Score Coefficient MatrixComponent12农产品价格指数-.1931.009农村居民消费.285.031消费支出.307-.051家庭人均纯收入.272.041就业人数.293-.218Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. Component Scores. 根据上表写出以下因子得分函数: F1=-0.193农产品价格指数+0.285农村居民消费+0.307消费支出+0.272家庭人均纯收入+0.293就业人数
F2=1.009农产品价格指数+0.031农村居民消费-0.051消费支出+0.041家庭人均纯收入-0.218就业人数
(5)综合评价:以两个因子的方差贡献率为权数,综合评价模型为: Z=0.63997F1+0.22315F2(旋转之后的方差贡献率)
F1=0.135112 X1+0.280371X2+ 0.276022X3+0.271383X4+0.211366X5 F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5
将各地区指标值代入上式得到各地区农村生活水平的综合值及排名:
- .可修编 .
- - -
名次123456789101112131415161718192021222324252627282930地区 上 海 北 京 浙 江 江 苏 天 津 山 东 福 建 辽 宁 广 东 吉 林 江 西 黑龙江 安 徽 内蒙古 河 南 四 川 河 北 湖 北 山 西 海 南 湖 南 宁 夏 云 南 陕 西 甘 肃 新 疆 重 庆 广 西 贵 州 青 海综合评价值1.91181.49811.45171.13460.47000.36200.28410.17740.1671-0.0389-0.1254-0.1521-0.1570-0.1708-0.1746-0.1780-0.1847-0.2125-0.2486-0.2951-0.3238-0.4733-0.5018-0.5030-0.5475-0.5747-0.5956-0.5959-0.6646-0.7414
(6)对结果进行分析:
从中可以看出,各地区的农村居民生活水平存在差异。其中,、XX、XX、XX地区的综合评价值排名前列,说明这几个城市农村居民的生活水平比较高。主要表现在农民收入水平和消费水平两个方面。这几个城市属于沿海地区,经济比较发达,工农业发展遥遥领先于其他地区。其次,XX、XX、XX、XX、XX综合评价值相对较低。不过也处于全国前十的地位。XX、XX、XX、XX、XX、XX、XX、XX等几个地区农村居民生活水平发展比较落后。原因是这些地区大多位于中国中西部,地理位置不佳,交通不便,经济发展水平不高,进而影响到农村经济的发展。农村居民收入水平和消费水平均比较低。因此,要提高这些地区农民的生活水平,政府应该加大这些地区的基础设施建设,提高这些地区农村居民的收入水平。
- .可修编 .
因篇幅问题不能全部显示,请点此查看更多更全内容