华东师范大学《概率论与数理统计》课件-第五章（茆诗松版）.pdf

资源描述

1、华东师范大学统计系茆诗松、程依明、濮晓龙研制?p 的大小如何；p 大概落在什么范围内；能否认为 p 满足设定要求（如 p 0.05）。5.1 总体与个体总体与个体总体的三层含义：例5.1.1 考察某厂的产品质量，以0记合格品，以1记不合格品，则总体=该厂生产的全部合格品与不合格品 =由0或1组成的一堆数若以 p 表示这堆数中1的比例（不合格品率），则该总体可由一个二点分布表示：X 0 1P 1 p pX01p0.9830.017X01p0.9150.085例5.1.2 在二十世纪七十年代后期，美国消费者购买日产SONY彩电的热情高于购买美产 SONY彩电，原因何在？1979年4月17日日

2、本朝日新闻刊登调查报告指出N(m,(5/3)2)，日产SONY彩电的彩色浓度服从正态分布，而美产SONY彩电的彩色浓度服从(m5,m+5)上的均匀分布。原因在于总体的差异上！图5.1.1 SONY彩电彩色浓度分布图等级 I II III IV美产 33.3 33.3 33.3 0 日产 68.3 27.1 4.3 0.3样本具有两重性一方面，由于样本是从总体中随机抽取的，抽取前无法预知它们的数值，因此，样本是随机变量，用大写字母 X1,X2,Xn 表示；另一方面，样本在抽取以后经观测就有确定的观测值，因此，样本又是一组数值。此时用小写字母 x1,x2,xn 表示是恰当的。简单起

3、见，无论是样本还是其观测值，样本一般均用 x1,x2,xn 表示，应能从上下文中加以区别。表5.1.2中的样本观测值没有具体的数值，只有一个范围，这样的样本称为分组样本。寿命范围元件数寿命范围元件数寿命范围元件数 (0 24 4 (192 216 6 (384 408 4 (24 48 8 (216 240 3 (408 432 4 (48 72 6 (240 264 3 (432 456 1 (72 96 5 (264 288 5 (456 480 2 (96 120 3 (288 312 5 (480 504 2 (120 144 4 (312 336 3 (504 528 3

4、(144 168 5 (336 360 5 (528 552 1 (168 192 4 (360 184 1 552 13 独立性:样本中每一样品的取值不影响其它样品的取值-x1,x2,xn 相互独立。要使得推断可靠，对样本就有要求，使样本能很好地代表总体。通常有如下两个要求：随机性:总体中每一个个体都有同等机会被选入样本-xi 与总体X有相同的分布。11(,.,)().nniiF xxF x例5.1.5 设有一批产品共N个，需要进行抽样检验以了解其不合格品率p。现从中采取不放回抽样抽出2个产品，这时，第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品，如果第一次抽到不合格品

5、，则P(x2=1|x1=1)=(Np1)/(N1)P(x2=1|x1=0)=(Np)(N1)5.2.1 经验分布函数5.2 样本数据的整理与显示设 x1,x2,xn 是取自总体分布函数为F(x)的样本，若将样本观测值由小到大进行排列,为 x(1),x(2),x(n)，则称 x(1),x(2),x(n)为有序样本，用有序样本定义如下函数(1)()(1)()0,()/,1,2,.,11,kknnxxFxk nxx xknxx 例5.2.1 某食品厂生产听装饮料，现从生产线上随机抽取5听饮料，称得其净重（单位：克）351 347 355 344 351x(1)=344,x(2)=347,x(3)=

6、351,x(4)=354,x(5)=355这是一个容量为5的样本，经排序可得有序样本：其经验分布函数为x1,x2,xn表5.2.1 例5.2.2 的频数频率分布表组序分组区间组中值频数频率累计频率(%)1 (147，157 152 4 0.20 20 2 (157，167 162 8 0.40 60 3 (167，177 172 5 0.25 85 4 (177，187 182 2 0.10 95 5 (187，197 192 1 0.05 100合计 20 1一、直方图直方图是频数分布的图形表示，它的横坐标表示所关心变量的取值区间，纵坐标有三种表示方法：频数，频率，最准确的是频率

7、/组距，它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择，直方图本身并无变化。把每一个数值分为两部分，前面一部分（百位和十位）称为茎，后面部分（个位）称为叶，然后画一条竖线，在竖线的左侧写上茎，右侧写上叶，就形成了茎叶图。如：二、茎叶图数值分开茎和叶 112 11|2 11 和 264677072747676798081828283858688919192939393959595979799100100102104106106107108108112112114116118119119122123125126128133我们用这批数据给出一个茎叶图，见下页。图5.

8、2.3 测试成绩的茎叶图6 4 77 0 2 4 6 6 98 0 1 2 2 3 5 6 8 9 1 1 2 3 3 3 5 6 6 7 7 910 0 0 2 4 6 6 7 8 811 2 2 4 6 8 9 912 2 3 5 6 813 3 在要比较两组样本时，可画出它们的背靠背的茎叶图。甲车间 6 2 0 5 6 乙车间8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7 6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0

9、 9 0 2 3 5 8 5 3 0 0 10 7 注意：茎叶图保留数据中全部信息。当样本量较大，数据很分散，横跨二、三个数量级时，茎叶图并不适用。5.3 统计量及其分布当人们需要从样本获得对总体各种参数的认识时，最好的方法是构造样本的函数，不同的函数反映总体的不同特征。定义5.3.1 设 x1,x2,xn 为取自某总体的样本，若样本函数T=T(x1,x2,xn)中不含有任何未知参数。则称T为统计量。统计量的分布称为抽样分布。按照这一定义：若 x1,x2,xn 为样本，则以及经验分布函数都是统计量。而当,2 未知时，x1,x1/等均不是统计量。尽管统计量不依赖于未知参数，但是它的分布

10、一般是依赖于未知参数的。下面介绍一些常见的统计量及其抽样分布。niiniixx121,定义5.3.2 设 x1,x2,xn为取自某总体的样本，其算术平均值称为样本均值，一般用表示，即思考：在分组样本场合，样本均值如何计算？二者结果相同吗？xx=(x1+xn)/n定理5.3.2 数据观测值与均值的偏差平方和最小，即在形如 (xic)2 的函数中，样本均值的基本性质：定理5.3.1 若把样本中的数据与样本均值之差称为偏差，则样本所有偏差之和为0，即最小，其中c为任意给定常数。1()0.niixx2()ixx样本均值的抽样分布：定理5.3.3 设x1,x2,xn 是来自某个总体的样本，x为样

11、本均值。(1)若总体分布为N(,2)，则xx的精确分布为N(,2/n);(2)若总体分布未知或不是正态分布，但 E(x)=,Var(x)=2,则n 较大时的渐近分布为N(,2/n),常记为。xAN(,2/n)这里渐近分布是指n 较大时的近似分布.称为样本标差。s*=s*2定义5.3.3称为样本方差，其算术平方根在n 不大时，常用作为样本方差,其算术平方根也称为样本标准差。221*1()niisxxn2211()1niisxxn在这个定义中，(xi x)2n1称为偏差平方和的自由度。其含义是：x在确定后,n 个偏差x1x,x2x,xnx能自由取值，因为只有n1个数据可以自由变动，而第n

12、个则不 (xi x)=0.称为偏差平方和，中样本偏差平方和有三个不同的表达式：(xix)2=xi2 (xi)2/n=xi2 nx它们都可用来计算样本方差。思考：分组样本如何计算样本方差？样本均值的数学期望和方差，以及样本方差的数学期望都不依赖于总体的分布形式。定理5.3.4 设总体 X 具有二阶矩，即 E(x)=,Var(x)=2 x1,x2,xn 为从该总体得到的样本，x和s2 分别是样本均值和样本方差，则E(x)=,Var(x)=2/n,E(s2)=2 样本均值和样本方差的更一般的推广是样本矩，这是一类常见的统计量。定义5.3.4 ak=(xik)/n 称为样本 k 阶原点矩，特别，样本一

13、阶原点矩就是样本均值。称为样本k阶中心矩矩。特别，样本二阶中心矩就是样本方差。bk=(xi x)k/nx样本偏度1反映了总体分布密度曲线的对称性信息。样本峰度2反映了总体分布密度曲线在其峰值附近的陡峭程度。定义：1=b3/b23/2 称为样本偏度，2=b4/b22 称为样本峰度。x另一类常见的统计量是次序统计量。一、定义5.3.7 设 x1,x2,xn 是取自总体X的样本,x(i)称为该样本的第i 个次序统计量，它的取值是将样本观测值由小到大排列后得到的第 i 个观测值。其中x(1)=minx1,x2,xn称为该样本的最小次序统计量，称 x(n)=maxx1,x2,xn为该样本的最大次

14、序统计量。xp我们知道，在一个样本中，x1,x2,xn 是独立同分布的，而次序统计量 x(1),x(2),x(n)则既不独立，分布也不相同，看下例。0 1 2(1)xp1927727127(3)x7271927p127 0 1 2我们可以清楚地看到这三个次序统计量的分布是不相同的。(2)x1327727p727 0 1 2进一步，我们可以给出两个次序统计量的联合分布，如，x(1)和x(2)的联合分布列为01207/279/273/27104/273/272001/27x(1)x(2)因为 P(x(1)=0,x(2)=0)=7/27 ，二者不等，由此可看出x(1)和 x(2)是不独立的。而 P(

15、x(1)=0)*P(x(2)=0)=(19/27)*(7/27)，二、单个次序统计量的分布定理5.3.5 设总体X的密度函数为p(x)，分布函数为F(x)，x1,x2,xn为样本，则第k个次序统计量x(k)的密度函数为)()(1()()!()!1(!)(1xpxFxFknknxpknkk例5.3.7 设总体密度函数为 p(x)=3x2,0 x1.从该总体抽得一个容量为5的样本，试计算 P(x(2)1/2)。解：有两种求法：从古典概型出发；从次序统计量密度函数出发。例5.3.8 设总体分布为U(0,1)，x1,x2,xn为样本，试求第 k 个次序统计量的分布。三、多个次序统计量的联合分布

16、对任意多个次序统计量可给出其联合分布，以两个为例说明：定理5.3.6 在定理5.3.5的记号下，次序统计量(x(i),x(j),(i j)的联合分布密度函数为zyzpypzFyFzFyFjnijinzypjnijiij),()()(1)()()()!()!1()!1(!),(11次序统计量的函数在实际中经常用到。如样本极差 Rn=x(n)x(1)，样本中程 x(n)x(1)/2。样本极差是一个很常用的统计量，其分布只在很少几种场合可用初等函数表示。令 R=x(n)x(1)，由 R 0,可以推出0 x(1)=x(n)R 1 R，则例5.3.9 设总体分布为U(0,1)，x1,x2,xn 为样本，则(x(n),x(1)的联合密度函数为p1,n(y,z)=n(n1)(zy)n-2,0 y z 1这正是参数为(n1,2)的贝塔分布。1220()(1)()d(1)(1)rnnRprn nyryyn nrr样本中位数也是一个很常见的统计量，它也是次序统计量的函数，通常如下定义：更一般地，样本p分位数mp可如下定义：120.5122,12nnnxnmxxn 为奇数，为偶数(1)()(1),1(

展开阅读全文