1、中华人民共和国国家标准UDC 引9.2 8 数据的统计处理和解释指数样本异常值的判断和处理GB 8 0 5 6 一 8 7 St a t i s t i c a l i n t e r p r e t a t i o n o f d a t aD e t e c t i o n a n d h a n d l i n g o f o u t l y i n g o b s e r v a t i o n s i n e x p o n e n t i a l s a mp l e1 目的和应用范围 1.1 本标准规定r 在来自指数分布(单参数)的随机样木中判断和处理异常观测值的一 般原则和实施
2、方法。适用于来自 指数总体或近似指数总体的样本,即除了个别或少数异 常值外,其余大部分数据(主体数据)来自同一 个指数总体或近似指数总体。指数分布的分布函数为:尸(X)二1一e一 10X 0X U (1)概率密度函数为 ,(X)=1.2 异常观测值(或称异常值)是指样木 1 1元e X 9X、_u.2)0的个别值,其数值明显偏离它(或它们)所在样本的其余观测值。1.2.1 i i 常值可能仅仅是数据 ,】州 有的随机变异性的极端表现,若确是这样,就应把它和样木,其它观测值以同样的方式对待。1.2.2 异常值也可能是偶然偏离所规定的试验条件和试 验方法的后果。或是在计算或记录这个数值时出 现的失
3、误。这种异常俏与其它观测值不属 同 一 个总休。2 引用标准G B 3 3 5 8-8 2 统计学名词及符号G B 4 0 8 6.1 一4 0 8 6.6-8 3(统计分布数值表3 符号及其意义X()n(刀 ”(飞)一一 ”(”)万 nt飞)aT。)(1一 a)-7 1 :(a)衬。(v,,v 2)观测值 j,自 小到大的第f 个观测仇。样本大小,4 a 1 0。时,检验最大 的观测值X(.)是否为异常值时所用的统计量。样本大小。叹1 0 0 0 寸,检验最小的观测值X(1)是否为异常值时所用的统计量。样木大小n 1 0 0 时,检验最大的观测值刃(。是否为异常值时所用 的统计鼠。样本大小。
4、1 0 0 时,检验最小的观测值X(1 是否为 异常值时所用的统计Mo检验的显著性水平。显 著性水平为a 时,用统计量7 。(。)作检验时的临界值。显著性水平 为a 时,用统计量7 :u)作检验时的临界 值。自由度为u不 口。2 的F变星的p 分位数。六,.卫定数截尾样本.,判断h 1 是否为异常小时所用的统计v%o国家标准局1 9 8 7 一 0 7 一 0 8 批准1 9 8 8 一 0 4一 0 1 实施GB 8 0 5 6 一 8 7 判断异常值的统计学原则 判断 一 个观测值是否为异常值时,通常可 根据技术 卜 或物理 L 的理由k i 接作出决定,例如当实脸者已经知道实验偏离规定的
5、实验方法,或测试仪器发生问题等等。当上 述理由不明确时,可用统计方法。4.1 木标准在 F 述不同情祝 下 判断样本 ,的异常值:单侧情形a):根据以往经验,异常值都为佰 端值;单侧情形b):根据以千 经验,异常值都为低端值;双侧中 韶(s.异常俏是在两端都可能出现的极端值。4.2 执行本标准时,应规定在样本中检出异常值的个数的 卜 限(占样木观测值个数的较小比例),当超过了 这个卜 限时,对此样本的代表性,应作慎重的研究和处理。4.3 判断单个异常值的检验规则 4.3.1 将所有观测值假设为来自同 一 总体的样本诸们,作为原假设;选定与 实际情说相符的4.1 中的 一 种情况作为备择假没,而
6、后根据统计学原理构造判断异常值的统计量。4.3.2 指定适当的显著性水平a,推荐的a 值为 1%,而不宜采用超过5%的a 值。根据a 及观测值的个数。,确定统计4 k 的临界位。4.3.3 将该批数据代人统计u,所得统计io的俏超过临界 值时,则判断事先待查的极端观测值为异常;否则就判断没有异常值。4.4 判断多个异常值的检验规则 在允许检出异常T k1 的个数可大于 1 的情Ik,本标准规定的方法是重复使用同一种判断单个异常俏的检验规则,即用指定的显著性水平 和符合4.3 规定的检验规则检验全体观测值,若没有检出异常俏,则铭个检验停1 1:;若检出了 1 个异常值,就再用相同的显著性水平 和
7、相同的规则,对除去已检出的异常值后余下 的观测值继续检验,直到没有检出异常值,或检出的异常值个数达到仁 限为止。5 处理异常值的一般规则 5.1 对卜 用统计方法检出的异常值,应尽可能寻 找其技术上 的和物理上的原因,作为处理异常值的依据。5.2 处理异常值的方式有:a.异常值保留在样本中参加其后的数据分析。b.允许剔除异常值,即把异常值从样本i t i 排除;c.允许剔除异常值,并追加适宜的观测值计人样本。d.在找到实际原因时修正异常值。5.3 标准使用者应根据实际问题的性质,权衡寻 找产生异常值原因的花费,正确判断异常值的得益及错误剔除正常观测f k5 的风险,确定实施下 述 几 个规则中
8、的一个:a.对O 召 可 异常值,若无充分的技术上 或物理上 的原因,则不得剔除或进行修,几。.异常1 A l l,除有充分的技术上 或物理L 的理由者外,在统计仁 表现为高度异常的(即本标准规定的显著性水平a 下,为显著的观测值),才允许剔除或进行修正。5.4 被剔除或经修 卜 的观测仇及其理由,应予记录,以备查询。6 判断单个异常值的规则 6.1 木标准规定,当 样木大小。进行检验.当 样本大小n.-,1 0 0 时,使用统i f 量F d,n(n)(或F _(.)进行检验。6.2 单侧寸 i l f,i a)的检验规则 6.2.1 当样木大小二=_:1 0 0 时,按 卜 法实施:a.计
9、算统计鼠T,)的佑:GB 8056一 87一T,。X ,b.确定显著性水平。,在表A.1 中查出对应7.临界值T 。)(1一 a)时,判X(n)为异常值,乏 戈f”,a 的临界值Tn(。)否则就判为没有异常值(1-a).当T c n)的值大6.2.2 当样本大小。)1 0 0 时,按下法实施:a.计算统计量En(n)的值:F(。、(n 一1)C X(。)犬,1)(a)E X一 从 -A (n 畜,1 b.确定显著性水平a,在F变量的分位数表中,查出对应当F。)的值大于F 一。(2,2。一2)时,判x(。)为异常侦,6.3).侧情形b)的检验规则 6.3.1 当 样本人小。1 0 0 时,按 法
10、实施:a.计算统计量En ,,的值:n(”一1)X(1)F n c i)二 一 6)艺 k;一。X!)b.确定显著性水“,在F变璧的分位数表,查出对应 一。,a 的临界仇Fu(2,2。一2)。当F n、。的值小:临界 值Fn(2,2。一2)时,判万、1)为异常值,否则就判为 没有异常值。6.4 双侧情形的检验规则 6.4.1 当样木大小n x;1 0 0 时,按下法实施:i 十 算统计量T n(,、,T.(,)的值。确定显著性水平a,在表A1 i t,杏出对应于八,号 的 临 界 值 了。(。,(1一 号,;在表A Z;查出对应于。,号 的 临 界 值 丁 ,c.计算样本均值:万 二告典;(7
11、)d.当e Y,上)Y,uc I,Y十七丫1,T c u 1 0 0 时,按下法实施:计算统计量E(。),E。(。的值。确定显著性水平a,在尸 变量的分位数表中,杳出对应于”,号 的 临 界 值 F0(2,2”一2)2么叹和 F一 a(2z 2”一2)。c.计算样本均值X=李 i x,.(8)T 口 1 1d.当 I Ie1 a)夕 1,E(1)F.(2,2 n 2)时,判X()为异常值;犬ug x c,当 e 十 e 二 F l 号(2,2”一 2)时,判 X()为 异 常 值,否 则 就 判为没有异常值。6.5 不例 例1.从指数总体中抽取样本大小为1 5 的样本,经测量后得到观测值如卜:
12、0.2 1 50 0.3 8 93 1.4 8 4 9 1.0 3 49 0.2 9 84 0.6 0 04 5.1 0 20 0.1 3 81 1.2 3 49 2.3 1 82 0.4 8 9 3 0.8 6 8 2 0.7 2 5 4 0.0 6 67 1.8 1 8 2其中 最大 的观测 值X(i5)=5.1 0 2 0 偏离其它观测 值较大,问5.1 0 2。是否为 异常值,取a-0.0 1 进 行P jwo样木大小。=1 5,计 算得T 1 5(l s)T二 0.3 0 4 0。由表A1 杳得1 5(1 5)(1一 0.0 1)二 0.4 0 7 0因 为 T 1 5(1 5)T
13、1 5(,:,(1 一 0.0 1),故 不 能 M 5.1 0 2 0 为 异 常 值。例 2 从 一 指 数 总 体 中 得 到 。个 观 侧 值,得 到=1 戈“。1 0 0,最 小 的 观 测 值 X c 1)二 0.0 4,在显 著 性水平 a 二 0.0 5,样本大小。=1 0 1,检验X(1)=0.0 4 是否为异常值。计算得E 1 o 1(1)=0.0 4,由F 变量的分 位数表可知 1,0.0 5(2,2 n 一2)=0.0 5因 为 E1 0 1(1)F o.o 5(2,2。一2),故 判X(1)=0.0 4 为 异 常 值。7 判断多个异常值的规则 当样本中可能有多个异常
14、值需要检验时,单侧情形a),b)和v侧情况分别按6.2,6.按照4.4 的规则执行,具体判断异常值的方法,可 根据3 和6.4 的步 骤实施。定数截尾(右边)样本中 最小的观测值X(,)是否为 异常小的统计判断准则测 8.f 91rt1 定数截尾(右边)样本。从总体中抽取。个个体,按数值由小到大的次序排列,取其前r 个观X(1)X(2)喊X(.)1 r 喊n一 1GB 8 0 5 8一 8 7县.之 判断定数截尾样本中最小观侧值X(2)是否为异常小时,按下法实施:8.2.1 计算统计量E .,(I)的值。E二,n(r 一1)X(,(1)二 9)2:X()+(。一 r)X(r)一。X、)8.2.
15、2当E,2 8 8确定显著性水平a,在F变量的分位数表中,查出对应于r,a 的临界值F(2,2。一2)。、,)小于Fa(2,2 r 一2)时,判X 为异常小,否则判X ,)为非异常值。GB 8056一 87附录A (#卜 充件)表 A I T 。的临界值表0.9 s0.9 75O.9 90.9 9.50.9 7 4 90,8 7 0 8口.7 6 8 00.6 8 3 90.6 1 6 20.5 6 1 10.5 1 5 70.4 7 7 60.4 4 5 00.4 1 6 80.3 9 2 30.3 7 0 80.3 5 1 60.3 3 4 60.3 1 9 10.3 0 5 20.2 9
16、 2 60.2 8 1 00.2 7 0 30.2 060.2 5 1 50.2 4 3 10.2 3 5 30.2 2 8 00.2 2 1 20,2 1 4 70.2 0 8 80.2 0 3 20.1 9 7 80.1 9 2 80.1 8 8 00.1 8 3 40.1 7 9 20,9 8 7 40.9 0 8 70.8 1 5 70.7 3 4 10,6 6 5 90.6 0 8 8.:;:0.4 8 6 20.4 5 5 70.4 2 9 30.4 0 6 20.3 8 5 60.3 6 6 80.3 4 9 90.3 3 4 70.3 2 0 70.3 0 8 00.2 9 6 60.2 8 5 70.2 7 6 00.2 6 6 70.2 5 8 00.2 5 0 10.2 4 2 50.2 3 5 40.2 2 8 80.2 2 2 60.2 1 6 80.2 1 1 20.2 0 6 00.2 0 0 90.1 9 6 30.9 9 5 00.9 4 2 50.8 6 4 00.7 8 8 40.7 2 1 60.6 6 3 90.6 1 4 70.5 7 2 4