您的当前位置:首页正文

格拉布斯法检验法

2023-06-05 来源:步旅网
格拉布斯法(Grubbs)检验法

▲概述:一组测量数据中,如果个别数据偏离平均值很远,那么这个 (这些)数据称作“可疑值” 如果用统计方法一例如格拉布斯(Grubbs)法判断,能将“可疑值”从此组测量数据中剔除而不参 与平均值的计算,那么该“可疑值”就称作“异常值 (粗大误差)”。

本文就是介绍如何用格拉布斯法(Grubbs)判断“可疑值”是否为“异常值”。

▲测量数据:例如测量 10次(n= 10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、 10.1、7.7、6.0。

▲排列数据:将上述测量数据按从小到大的顺序排列,得到

4.7、5.4、6.0、6.5、7.3、7.7、8.2、

9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。

▲计算平均值X-和标准差s: x- = 7.89 ;标准差s = 2.704。计算时,必须将所有10个数据全部包 含在内。

(x- X)2

▲计算偏离值:平均值与最小值之差为 7.89 - 4.7 = 3.19 ;最大值与平均值之差为14.0 — 7.89 =

n — 1 6.11。

▲确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认 为最大值14.0是可疑值。

▲计算G值:G二(Xi — x-)/ s;其中i是可疑值的排列序号

——10 号;因此 G°=(X10— x-)/ s = (14.0 — 7.89)/2.704 = 2.260。由于 心一x-是残差,而 s 是标准 差,因而可认为G。是残差与标准差的比值。下面要把计算值 G与格拉布斯表给出的临界值 G(n) 比较,如果计算的G值大于表中的临界值 G(n),则能判断该测量数据是异常值,可以剔除。但是 要提醒,临界值G(n)与两个参数有关:检出水平a (与置信概率P有关)和测量次数n(与自由度f 有关)。

▲定检出水平a :如果要求严格,检出水平a可以定得小一些,例如定a = 0.01,那么置信概率P =1— a = 0.99 ;如果要求不严格,a可以定得大一些,例如定a = 0.10,即P= 0.90 ;通常定a =0.05, P= 0.95。

▲查格拉布斯表获得临界值:根据选定的 P值(此处为0.95)和测量次数n(此处为10),查格拉布 斯表,横竖相交得临界值 G5(10) = 2.176。

▲比较计算值 G 和临界值 G5(10) : G = 2.260,G5(10) = 2.176,G >G5(10) ▲判断是否为异常值:因为 G>G5(10),可以判断测量值14.0为异常值,将它从10个测量数据 中剔除。

▲余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的

G> G5(9),仍然是异常值,剔

除;如果Gv G95(9),不是异常值,则不剔除。本例余下的 9个数据中没有异常值。

格拉布斯表——临界值G( n)

P 0.95 n 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1.135 1.463 1.672 1.822 1.938 2.032 2.110 2.176 2.234 2.285 2.331 2.371 2.409 2.443 1.155 1.492 1.749 1.944 2.097 2.231 2.323 2.410 2.485 2.550 2.607 2.659 2.705 2.747 0.99 n 17 18 19 20 21 22 23 24 25 30 35 40 45 50 2.475 2.504 2.532 2.557 2.580 2.603 2.624 2.644 2.663 2.745 2.811 2.866 2.914 2.956 2.785 2.821 2.854 2.884 2.912 2.939 2.963 2.987 3.009 3.103 3.178 3.240 3.292 3.336 P 0.95 0.99 对异常值及统计检验法的解释

■测量过程是对一个无限大总体的抽样:对固定条件下的一种测量,理论上可以无限次测量下去, 可以得到无穷多的测量数据, 这些测量数据构成一个容量为无限大的总体; 或者换一个角度看, 本 来就存在一个包含无穷多测量数据的总体。 实际的测量只不过是从该无限大总体中随机抽取一个容 量为n(例如n= 10)的样本。这种样本也可以有无数个,每个样本相当于总体所含测量数据的不同 随机组合。 样本中的正常值应当来自该总体。 通常的目的是用样本的统计量来估计总体参量。 总体 一般假设为正态分布。

■异常值区分: 样本中的正常值应当属于同一总体; 而异常值有两种情况: 第一种情况异常值不属 于该总体,抽样抽错了, 从另外一个总体抽出一个 (一些)数据,其值与总体平均值相差较大; 第二 种情况异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现, 比如说超过3c的数据, 出现的概率很小。用统计判断方法就是将异常值找出来,舍去。

■犯错误 1:将本来不属于该总体的、第一种情况的异常值判断出来舍去,不会犯错误;将本来属 于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。

■犯错误 2:还有一种情况,不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统 计检验方法判断不出它是异常值,就会犯另外一种错误。

■异常值检验法:判断异常值的统计检验法有很多种,例如格拉布斯法、狄克逊法( - 峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。

■格拉布斯法最佳: 每种统计检验法都会犯犯错误 1 和错误 2。但是有人做过统计, 在所有方法中, 格拉布斯法犯这两种错误的概率最小,所以推荐使用格拉布斯法。

■多种方法结合使用: 为了减少犯错误的概率, 可以将 3种以上统计检验法结合使用, 根据多数方 法的判断结果,确定可疑值是否为异常值。

■异常值来源:测量仪器不正常,测量环境偏离正常值较大,计算机出错,看错,读错,抄错,算 错,转移错误。

Q法)、偏度

因篇幅问题不能全部显示,请点此查看更多更全内容