廊坊师范学院学报(自然科学版)
JournalofLangfangNormalUniversity(Natural)廊坊师范学院学报(自然科学版)ScienceEditionMar.2018
No.1第18Vol.18卷·第1期
多元线性回归模型异方差检验研究
唐裔,冯长焕
(西华师范大学,四川南充637002)
【摘要】在经典线性回归模型中,对存在异方差问题的模型进行最小二乘参数估计会产生严重的后果,因此,研究异方差的检验方法显得十分重要。由于戈里瑟检验法能探测异方差的具体表现形式,但它对多元回归模型检验时,需要重复拟合试验模型。文章基于戈里瑟检验法的思想,利用样本主成分对观测值进行重新组合,在其方法上进行改进,使得整个检验过程方便、快捷。最后通过实例论证了改进后的方法是有效和可行的。【关键词】多元回归模型;异方差;样本主成分;戈里瑟检验TheStudyofHeteroscedasticityTestforMultivariate
LinearRegressionModel
TANGYi,FENGChang-huan(ChinaWestNormalUniversity,Nanchong637002,China)【Abstract】Intheclassicallinearregressionmodel,forthemodelwithheteroscedasticityproblem,theleastsquarespa-rameterestimationwillhaveseriousconsequence.Therefore,itisveryimportanttostudythetestmethodofheteroscedastici-ty.SincetheGlejsertestcandetectthespecificformofheteroscedasticity,itneedsrepeatedfittingtestmodelwhentestingmultivariateregressionmodel.Therefore,basedontheideaofGlejsertest,thesampleprincipalcomponentisusedtoreevalu-atetheobservationsandmakeproperimprovementsinthemethod,sothatthewholeinspectionprocessisconvenientandquick.Finally,anexampleisgiventoprovethattheimprovedmethodiseffectiveandfeasible.
【Keywords】multivariateregressionmodel;heteroscedasticity;sampleprincipalcomponent;Glejsertest〔中图分类号〕O212〔文献标识码〕A〔文章编号〕1674-3229(2018)01-0008-040引言
在经典线性回归模型中,最常用的方法是普通的检验也是非常重要的理论与实践问题。传统的检验方法有很多,如图示检验法、Goldfeld-Quandt检验、Glejser检验、斯皮尔曼等级相关系数检验等。在近几年的发展中,冯珍珍[3]对这几种传统的检验方法做了比较分析,龚秀芳[4]、郑红艳[5]对Goldfeld-Quandt检验法做了推广。尽管这些方法都能对回归模型的异方差进行检验,但是只有Glejser检验法能探测异方差性的具体表现形式,这样能为后面的异方差消除做准备。然而,对于含多个解释变量的模型,用戈里瑟法检验,需要多次重复检验步骤。本文基于Glejser检验法的思想,引用样本主成分的方法,在Glejser检验法上做适当的改进,使得整个检最小二乘法,而要想用普通最小二乘法对数据进行回归拟合,该线性模型必须满足六个基本假设条件[1-2]。如果线性模型满足这几个基本假设条件,在现实的应用中,由于考虑的问题错综复杂,因而在建立线性回归模型时异方差现象会经常出现。在忽略异方差的情况下,对回归模型进行最小二乘参数估计就会产生严重的后果:如对变量的显著性检验会失去意义;估计与预测的精度降低,或者预测模型失效等。因此,异方差的检验至关重要,研究异方差性[收稿日期]2017-10-11
[基金项目]西华师范大学基本科研(14C004);南充市社科规划一般规划(NC2013B027)[作者简介]唐裔(1993-),女,西华师范大学硕士研究生,研究方向:概率论与数理统计;冯长焕(1972-),女,硕士,西华师范大学数学与信息学院教授,研究方向:应用数理统计。
·8·
第18卷·第1期
唐裔等:多元线性回归模型异方差检验研究
2018年3月
验过程简便化。1理论基础
1.1异方差性的定义
设线性回归模型[6]为:Yi经典回归模型中的同方差性的假定要求对所有=b0+b1X1i+b2X2i+⋯+bkXki+ui,的i(i=1,2,⋯,n)都有Var(ui(u)=δ2
,即要求在各个观测点处ui离开均值Ei果模型违背了同方差性假定,)=0的分散程度是相同的。如随机误差项ui的方差在不同观测点处不再为同一常数,u即:ii
存在异方差性。Var()=δi2(i=1,2,⋯,n),则称u(或模型)1.2戈里瑟检验
戈里瑟(Glejser)检验法[7],简称G-J法,该方法是戈里瑟1969年提出的,其基本原理是通过建立残差序列对解释变量的(辅助)回归模型,判断随机误差项的方差与解释变量之间是否存在着较强的相关关系。其基本思想是由普通最小二乘法得到残差ei后,再取得ei的绝对值|ei|,将|ei|对某个解释变量Xji回归,根据回归模型的显著性和拟合优度来判断是否存在异方差性。通常假定的函数形式为:|ei|=a0+a1XhjiG-J检验步骤为:+vi(h=±1,±2,±3,⋯)。
(1)根据样本数据用最小二乘法估计回归模型,并计算残差e∧
i=Yi-Yi的绝对值|ei|。(2)以|ei|为被解释变量,某一Xji为解释变量建立试验模型,并进行最小二乘回归。(3)利用t检验法检验每个“试验模型”中斜率系数a1的显著性。如果某一个模型的a1显著不为零,则认为随机误差项ui存在异方差性,进而可以依据R2确定异方差的表现形式,否则,认为ui具有同方差性。戈里瑟检验法不仅可以检验异方差性是否存在,而且通过检验过程中设定不同函数形式的试验模型,可以探测异方差的具体表现形式,这有助于进一步研究如何消除异方差性的影响。对于一元线性回归模型来说,由于该模型只含有一个解释变量,利用戈里瑟检验异方差会使得检验过程十分方便快捷。然而对于多元回归模型来说,由于模型含有多个解释变量,需要多次重复上述戈里瑟检验步骤,方能得出随机误差项ui是否存在异方差性的结论,这样就使得检验过程十分复杂和繁琐。下面对这种方法作进一步改进,使得改进的方法对多变量异方差的检验过程简单化。2多变量戈里瑟检验的改进
由上述的戈里瑟检验法可知,对多元的线性回归模型:Yi=b0+b1X1i+b2X2i+⋯+bkXki+ui。进行戈里瑟检验时,要用所得的残差序列依次对多个解释变量建立回归模型。大多数情况下,我们并不知道哪个解释变量与残差序列有相关关系,所以在进行残差序列建模时,通常是按照回归模型中解释变量的顺序依次检验,如果残差序列只与最后一个解释变量存在相关关系,那意味着整个检验中残差序列要对所有的解释变量进行建模,这样就会使得工作量大,计算麻烦。然而,如果有人在检验过程中为了减轻工作量,不想对每个解释变量进行检验,而又想判定多元回归模型的随机误差项ui是否存在异方差性,这又该怎么解决呢?我们考虑最好能找一个新的变量,它可以尽可能多地反映回归模型中每个解释变量的信息,得到这个新变量后,直接用所得的残差序列对新变量建立试验模型,然后利用t检验法检验“试验模型”中斜率系数a1的显著性,如果a1显著不为零,则这个新变量与残差序列有相关关系,即可认为多元回归模型中的随机误差项ui存在异方差性。事实上,这种想法是可以实施的。首先,可以用样本主成分对所有的解释变量进行分析,然后提取第一主成分,由第一主成分生成一个新的变量,这个新的变量就会尽可能地包含所有解释变量的信息。其次,用残差序列对这个新变量建立试验模型等价于戈里瑟检验中用残差序列对每个解释变量建立试验模型,因为我们建立试验模型的目的是为了观察残差序列是否与解释变量存在相关关系,由于这个新变量包含了解释变量的大部分信息,如果残差序列与解释变量有相关关系,那么与新变量同样有相关关系。因此,对多元线性回归模型的异方差检验实际上就转化为对一元线性回归模型的异方差检验。设x=(x1,x2,⋯,xk)'
是一个k维的向量,它有n组观测值,组成n×k的样本矩阵A,S为A的协方差矩·9·
2018年3月廊坊师范学院学报(自然科学版)
第18卷·第1期
阵。由样本主成分的求法,求出S的所有特征值λ1特征向量l,λ2,⋯,λk以及它们所对应的正交化1,l2,⋯,我们取第一主成分lk,其中λ1≥λ2≥⋯≥λk。g=l1'x=l11x1+l12x2+⋯+l1kxk
(1)k
若g的贡献率λ1
∑λi
i=1
较大(譬如达到70%等),则说明g已经较多地反映了解释变量的信息。把n组观察值带入(1)得到相应的g1就可以用残差序列对新变量g建立试验模型,,g2,⋯,gn,这样我们进行多元回归模型的异方差检验。具体步骤如下:(1)根据样本数据用最小二乘法建立回归模型,并计算残差e∧
i2)用样本主成分对回归模型中解释变量的观=Yi-Yi的绝对值|ei|。(测值进行分析,取出第一主成分g=l1'x=l11x1的值代入第一主成分得到相应的+l12x2+⋯+l1kxk,将n组解释变量gi(i=1,2,⋯,n)(3)以g。i为解释变量,|ei|为被解释变量建立试验模型,并进行最小二乘回归。(4)利用t检验法检验每个“试验模型”中斜率系数a1的显著性。如果某一个模型的a1显著不为零,则认为随机误差项ui存在异方差性,进而可以依据R2确定异方差的表现形式,否则,则认为ui具有同方差性。3应用举例
下面结合案例来说明改进后方法的可行性和有效性。本例的数据记录了某年我国31个省(区)的城镇居民人均全年实际收入(x1)以及每人全年的消费性支出(y),包括食品支出(x2)、娱乐教育文化服务支出(x3),单位为千元,如表1所示。本例数据来源于文献[4]。由文献[4]可知,用表1中的数据x1,x2,x3,y建立的回归线性模型存在异方差,下面使用本文提出的方法,再次对数据进行检验。首先,我们利用普通最小二乘法对数据进行多元回归,得到的模型为:∧
y=-0.482+0.398x1+0.608x2+2.273x3
(2)将解释变量的值带入上式(2),得到拟合值∧
yi,·10·
用实际值y与拟合值∧
iyi作差得到回归模型的残差序列ei,计算残差序列的绝对值|ei(|见表1)。表131个地区城镇居民家庭全年人均经济数据地区x1
x2
x3
y
|ei|g
北京9.242.95921.1418208.300.3782387.86276天津7.672.45980.7359705.080.9912026.41111河北5.391.49560.5405804.110.0239154.38338山西4.361.40630.4147203.410.0261913.64702内蒙古4.801.30400.4630903.560.0466023.87724辽宁4.921.73080.4452003.950.0768614.18611吉林4.501.56190.4596203.530.1061383.84362黑龙江4.62
1.41010.3768203.480.0765733.78335上海10.993.71231.0349808.660.1730029.28408江苏6.592.20760.5852305.250.1043665.53675浙江8.482.62920.7958706.210.4225707.02593安徽5.103.99福建6.911.84485.490.178546江西4.752.70950.5131803.800.1927564.39732山东5.841.56380.4616701.67580.3939900.5994304.200.2123975.949810.3562363.959494.78900河南4.551.42770.3377603.500.2024923.73008湖北5.231.78340.6177404.340.0805684.49741湖南5.861.94220.6972204.800.1483785.00953广东9.213.05520.8730608.280.9226097.75122广西5.652.03390.6217404.520.2290354.89539海南5.382.05790.4771704.010.3176504.66786重庆5.922.30330.7300505.430.1636285.27270四川5.511.97430.5751004.210.3411104.75141贵州4.951.67380.4455903.970.1186904.17122云南6.232.19430.5619104.970.0286765.30123西藏6.962.64660.3710405.030.0429315.89290陕西4.681.47300.4909003.900.1752033.91894甘肃4,501.52560.4496903.600.0084963.81909青海4,731.6547宁夏4,511.37550.4795303.900.070695新疆
5.361.60880.4247500.541300
3.554.79
0.1024424.047700.5975703.724284.43143
其次,用样本主成分对回归模型中解释变量x1,x2,gx3的值进行分析,求出第一主成分g为:=0.5968x1+0.5792x2+0.5553x3
(3)第18卷·第1期
唐裔等:多元线性回归模型异方差检验研究
2018年3月
其中,样本协方差阵的特征根分别为2.7194、g的贡献率为90.7%,0.2468和0.0338,因此,新变量g
4结语
异方差问题是经典回归模型中必须考虑的问包含了解释变量x1,x2,x3的大部分信息。此时将31组观察值依次代入式(3),得到g1,g2,⋯,g31(见表1)。h
题,我们在建立回归模型的过程中不仅要检验模型是否存在异方差性,还要采取措施对异方差性进行修正,因此,选择什么样的方法去检验异方差就显得十分重要。戈里瑟检验法的优点是既能检验异方差的存在,又能通过“实验”探测异方差的具体形式,而它的不足之处是检验过程比较复杂,需要多次重复拟合试验模型。本文在戈里瑟检验法的基础上进行改进,将样本主成分中的方法与其结合,既继承了它的优点,又改进了其不足。[参考文献]
[1]田金方.数理统计与数据分析[M].北京:机械工业出版
社,2011.
[2]何晓群,刘文卿.应用回归分析[M].北京:中国人民大学
出版社,2011.
[3]龚秀芳,冯珍珍.几种异方差检验方法的比较[J].菏泽师
范专科学校学报,2003,(4):19-22.
[4]龚秀芳.戈德菲尔德-匡特检验的推广[J].数理统计与管
理,2005,(1):98-100.
[5]郑红艳.一种多变量线性回归模型的异方差检验方法
[J].统计与决策,2010,(5):152-154.
[6]靳庭两.计量经济学[M].成都:西南财经大学出版社,[7]孙敬水.计量经济学教程[M].北京:清华大学出版社,
2005.2011.
±3,⋯)做回归试验模型,结果如下:最后,用残差序列的绝对值|ei|对gi(h=±1,±2,
|ei|=-0.188338+0.082380gi,t=(-1.314858)(2.979824),F=8.879348,R2=0.234411,|ei|=0.05392+0.0063gi2,t=(0.731336)(2.702703),|ei|=0.132045+0.00058gi3,t=(2.37776)(2.358048),F=7.304605,R2=0.201203,表,得临界值t0.025(28)=2.0484,由上述3个试验模型知,回归系数估计量的t值大于临界值t0.025(28),所以得出试验回归模型的斜率系数显著不为零,即残差序列的绝对值|ei|与变量gi有相关关系,因此,我们h
取显著性水平α=0.05,查自由度为28的t分布F=5.560388。R2=0.160889,建立的多元回归模型存在异方差。(上接第7页)
[4]韩蔚,张秉森.插值和拟合方法在织物染色配色问题中的
具体应用研究[J].印染助剂,2009,26(6):39-43.[5]刘军丽,王超.基于多元线性回归的日用陶瓷铅镉溶出量
测定方法研究[J].廊坊师范学院学报(自然科学版),[6]李晓康.基于非线性回归的极值模型参数估计[J].廊坊
师范学院学报(自然科学版),2014,14(3):8-11,14.[7]2017年全国大学生数学建模竞赛试题[EB/OL].http://
2013,13(3):11-13,21.
mcm.ustc.edu.cn/ahmcm/,2017-11-10.京:北京航空航天大学出版社,2014.
[9]刘天龙.基于主成分分析的造纸污水处理过程故障诊断
系统研究[D].广州:华南理工大学,2012.
[10]董小刚,赵浪,林诗明,等.岭回归和主成分回归下的农
业总产值因素分析[J].长春工业大学学报,2017,38(1):1-7.
[8]卓金武.MATLAB在数学建模中的应用(第2版)[M].北
·11·
因篇幅问题不能全部显示,请点此查看更多更全内容