收藏 分享(赏)

华东师范大学《概率论与数理统计》课件-第五章(茆诗松版).pdf

上传人:嘭** 文档编号:75484 上传时间:2023-02-15 格式:PDF 页数:76 大小:8.73MB
下载 相关 举报
华东师范大学《概率论与数理统计》课件-第五章(茆诗松版).pdf_第1页
第1页 / 共76页
华东师范大学《概率论与数理统计》课件-第五章(茆诗松版).pdf_第2页
第2页 / 共76页
华东师范大学《概率论与数理统计》课件-第五章(茆诗松版).pdf_第3页
第3页 / 共76页
华东师范大学《概率论与数理统计》课件-第五章(茆诗松版).pdf_第4页
第4页 / 共76页
华东师范大学《概率论与数理统计》课件-第五章(茆诗松版).pdf_第5页
第5页 / 共76页
华东师范大学《概率论与数理统计》课件-第五章(茆诗松版).pdf_第6页
第6页 / 共76页
亲,该文档总共76页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、华东师范大学统计系茆诗松、程依明、濮晓龙 研制?p 的大小如何;p 大概落在什么范围内;能否认为 p 满足设定要求(如 p 0.05)。5.1 总体与个体总体与个体总体的三层含义:例5.1.1 考察某厂的产品质量,以0记合格品,以1记不合格品,则 总体=该厂生产的全部合格品与不合格品 =由0或1组成的一堆数若以 p 表示这堆数中1的比例(不合格品率),则该总体可由一个二点分布表示:X 0 1P 1 p pX01p0.9830.017X01p0.9150.085例5.1.2 在二十世纪七十年代后期,美国消费 者购买日产SONY彩电的热情高于购买美产 SONY彩电,原因何在?1979年4月17日日

2、本朝日新闻刊登调查报 告指出N(m,(5/3)2),日产SONY彩电的彩色浓 度服从正态分布,而美产SONY彩电的彩色浓 度服从(m5,m+5)上的均匀分布。原因在于总体的差异上!图5.1.1 SONY彩电彩色浓度分布图等级 I II III IV美产 33.3 33.3 33.3 0 日产 68.3 27.1 4.3 0.3样本具有两重性 一方面,由于样本是从总体中随机抽取的,抽 取前无法预知它们的数值,因此,样本是随机 变量,用大写字母 X1,X2,Xn 表示;另一方面,样本在抽取以后经观测就有确定的 观测值,因此,样本又是一组数值。此时用小 写字母 x1,x2,xn 表示是恰当的。简单起

3、见,无论是样本还是其观测值,样本一般均用 x1,x2,xn 表示,应能从上下文中加以区别。表5.1.2中的样本观测值没有具体的数值,只有一个范围,这样的样本称为分组样本。寿命范围 元件数 寿命范围 元件数 寿命范围 元件数 (0 24 4 (192 216 6 (384 408 4 (24 48 8 (216 240 3 (408 432 4 (48 72 6 (240 264 3 (432 456 1 (72 96 5 (264 288 5 (456 480 2 (96 120 3 (288 312 5 (480 504 2 (120 144 4 (312 336 3 (504 528 3

4、(144 168 5 (336 360 5 (528 552 1 (168 192 4 (360 184 1 552 13 独立性:样本中每一样品的取值不影响其 它样品的取值-x1,x2,xn 相互独立。要使得推断可靠,对样本就有要求,使样本能很好地代表总体。通常有如下两个要求:随机性:总体中每一个个体都有同等机会 被选入样本-xi 与总体X有相同的分布。11(,.,)().nniiF xxF x例5.1.5 设有一批产品共N个,需要进行抽样检 验以了解其不合格品率p。现从中采取不放回 抽样抽出2个产品,这时,第二次抽到不合格 品的概率依赖于第一次抽到的是否是不合格 品,如果第一次抽到不合格品

5、,则P(x2=1|x1=1)=(Np1)/(N1)P(x2=1|x1=0)=(Np)(N1)5.2.1 经验分布函数5.2 样本数据的整理与显示设 x1,x2,xn 是取自总体分布函数为F(x)的样本,若将样本观测值由小到大进行排列,为 x(1),x(2),x(n),则称 x(1),x(2),x(n)为有序样本,用有序样本定义如下函数(1)()(1)()0,()/,1,2,.,11,kknnxxFxk nxx xknxx 例5.2.1 某食品厂生产听装饮料,现从生产线上 随机抽取5听饮料,称得其净重(单位:克)351 347 355 344 351x(1)=344,x(2)=347,x(3)=

6、351,x(4)=354,x(5)=355这是一个容量为5的样本,经排序可得有序样本:其经验分布函数为x1,x2,xn表5.2.1 例5.2.2 的频数频率分布表 组序 分组区间 组中值 频数 频率 累计频率(%)1 (147,157 152 4 0.20 20 2 (157,167 162 8 0.40 60 3 (167,177 172 5 0.25 85 4 (177,187 182 2 0.10 95 5 (187,197 192 1 0.05 100合计 20 1一、直方图直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:频数,频率,最准确的是频率

7、/组距,它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。把每一个数值分为两部分,前面一部分(百位和十位)称为茎,后面部分(个位)称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。如:二、茎叶图数值 分开 茎 和 叶 112 11|2 11 和 264677072747676798081828283858688919192939393959595979799100100102104106106107108108112112114116118119119122123125126128133我们用这批数据给出一个茎叶图,见下页。图5.

8、2.3 测试成绩的茎叶图6 4 77 0 2 4 6 6 98 0 1 2 2 3 5 6 8 9 1 1 2 3 3 3 5 6 6 7 7 910 0 0 2 4 6 6 7 8 811 2 2 4 6 8 9 912 2 3 5 6 813 3 在要比较两组样本时,可画出它们的背靠背的茎叶图。甲车间 6 2 0 5 6 乙车间8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7 6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0

9、 9 0 2 3 5 8 5 3 0 0 10 7 注意:茎叶图保留数据中全部信息。当样本量较 大,数据很分散,横跨二、三个数量级时,茎叶图并不适用。5.3 统计量及其分布当人们需要从样本获得对总体各种参数的认识时,最好的方法是构造样本的函数,不同的函数反映总体的不同特征。定义5.3.1 设 x1,x2,xn 为取自某总体的样 本,若样本函数T=T(x1,x2,xn)中不含有任 何未知参数。则称T为统计量。统计量的分布 称为抽样分布。按照这一定义:若 x1,x2,xn 为样本,则 以及经验分布函数都是统计量。而当,2 未知时,x1,x1/等均不是统计量。尽管统计量不依赖于未知参数,但是它的分布

10、一般是依赖于未知参数的。下面介绍一些常见的统计量及其抽样分布。niiniixx121,定义5.3.2 设 x1,x2,xn为取自某总体的样本,其算术平均值称为样本均值,一般用 表示,即思考:在分组样本场合,样本均值如何计算?二者结果相同吗?xx=(x1+xn)/n定理5.3.2 数据观测值与均值的偏差平方和 最小,即在形如 (xic)2 的函数中,样本均值的基本性质:定理5.3.1 若把样本中的数据与样本均值之差 称为偏差,则样本所有偏差之和为0,即 最小,其中c为任意给定常数。1()0.niixx2()ixx样本均值的抽样分布:定理5.3.3 设x1,x2,xn 是来自某个总体的样本,x为样

11、本均值。(1)若总体分布为N(,2),则xx的精确分布为N(,2/n);(2)若总体分布未知或不是正态分布,但 E(x)=,Var(x)=2,则n 较大时 的渐近分 布为N(,2/n),常记为 。xAN(,2/n)这里渐近分布是指n 较大时的近似分布.称为样本标差。s*=s*2定义5.3.3称为样本方差,其算术平方根在n 不大时,常用 作为样本方差,其算术平方根也称为样本标准差。221*1()niisxxn2211()1niisxxn在这个定义中,(xi x)2n1称为偏差平方和的自由度。其含义是:x在 确定后,n 个偏差x1x,x2x,xnx能自由取值,因为只有n1个数据可以自由变动,而第n

12、个则不 (xi x)=0.称为偏差平方和,中样本偏差平方和有三个不同的表达式:(xix)2=xi2 (xi)2/n=xi2 nx它们都可用来计算样本方差。思考:分组样本如何计算样本方差?样本均值的数学期望和方差,以及样本方差的数学期望都不依赖于总体的分布形式。定理5.3.4 设总体 X 具有二阶矩,即 E(x)=,Var(x)=2 x1,x2,xn 为从该总体得到的样本,x和s2 分别是样本均值和样本方差,则E(x)=,Var(x)=2/n,E(s2)=2 样本均值和样本方差的更一般的推广是样本矩,这是一类常见的统计量。定义5.3.4 ak=(xik)/n 称为样本 k 阶原点矩,特别,样本一

13、阶原点矩就是样本均值。称为样本k阶中心矩矩。特别,样本二阶中心矩就是样本方差。bk=(xi x)k/nx样本偏度1反映了总体分布密度曲线的对称性信息。样本峰度2反映了总体分布密度曲线在其峰值附近的陡峭程度。定义:1=b3/b23/2 称为样本偏度,2=b4/b22 称为样本峰度。x另一类常见的统计量是次序统计量。一、定义5.3.7 设 x1,x2,xn 是取自总体X的样本,x(i)称为该样本的第i 个次序统计量,它的取值 是将样本观测值由小到大排列后得到的第 i 个 观测值。其中x(1)=minx1,x2,xn称为该样本 的最小次序统计量,称 x(n)=maxx1,x2,xn为 该样本的最大次

14、序统计量。xp我们知道,在一个样本中,x1,x2,xn 是独立同分布的,而次序统计量 x(1),x(2),x(n)则既不独立,分布也不相同,看下例。0 1 2(1)xp1927727127(3)x7271927p127 0 1 2我们可以清楚地看到这三个次序统计量的分布是不相同的。(2)x1327727p727 0 1 2进一步,我们可以给出两个次序统计量的联合分布,如,x(1)和x(2)的联合分布列为01207/279/273/27104/273/272001/27x(1)x(2)因为 P(x(1)=0,x(2)=0)=7/27 ,二者不等,由此可看出x(1)和 x(2)是不独立的。而 P(

15、x(1)=0)*P(x(2)=0)=(19/27)*(7/27),二、单个次序统计量的分布定理5.3.5 设总体X的密度函数为p(x),分布 函数为F(x),x1,x2,xn为样本,则第k个 次序统计量x(k)的密度函数为)()(1()()!()!1(!)(1xpxFxFknknxpknkk例5.3.7 设总体密度函数为 p(x)=3x2,0 x1.从该总体抽得一个容量为5的样本,试计算 P(x(2)1/2)。解:有两种求法:从古典概型出发;从次序统 计量密度函数出发。例5.3.8 设总体分布为U(0,1),x1,x2,xn为样 本,试求第 k 个次序统计量的分布。三、多个次序统计量的联合分布

16、对任意多个次序统计量可给出其联合分布,以两个为例说明:定理5.3.6 在定理5.3.5的记号下,次序统计 量(x(i),x(j),(i j)的联合分布密度函数为zyzpypzFyFzFyFjnijinzypjnijiij),()()(1)()()()!()!1()!1(!),(11次序统计量的函数在实际中经常用到。如 样本极差 Rn=x(n)x(1),样本中程 x(n)x(1)/2。样本极差是一个很常用的统计量,其分布只在很少几种场合可用初等函数表示。令 R=x(n)x(1),由 R 0,可以推出0 x(1)=x(n)R 1 R,则例5.3.9 设总体分布为U(0,1),x1,x2,xn 为 样本,则(x(n),x(1)的联合密度函数为p1,n(y,z)=n(n1)(zy)n-2,0 y z 1这正是参数为(n1,2)的贝塔分布。1220()(1)()d(1)(1)rnnRprn nyryyn nrr样本中位数也是一个很常见的统计量,它也是次序统计量的函数,通常如下定义:更一般地,样本p分位数mp可如下定义:120.5122,12nnnxnmxxn 为奇数,为偶数(1)()(1),1(

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教育教学 > 教案课件

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2