1、 章末综合测评(三)统计案例(时间120分钟,满分150分)一、选择题(本大题共12小题,每小题5分,共60分在每小题给出的四个选项中,只有一项是符合题目要求的)1下列说法中错误的是()A如果变量x与y之间存在着线性相关关系,则我们根据试验数据得到的点(xi,yi)(i1,2,n)将散布在某一条直线的附近B如果两个变量x与y之间不存在着线性关系,那么根据它们的一组数据(xi,yi)(i1,2,n)不能写出一个线性方程C设x,y是具有相关关系的两个变量,且y关于x的线性回归方程为x,叫做回归系数D为使求出的线性回归方程有意义,可用统计检验的方法来判断变量y与x之间是否存在线性相关关系【解析】任何
2、一组(xi,yi)(i1,2,n)都能写出一个线性方程,只是有的不存在线性关系【答案】B2.如图1所示,有5组数据,去掉哪组数据后(填字母代号),剩下的4组数据的线性相关性最大()图1AEBCCDDA【解析】由题图易知A,B,C,D四点大致在一条直线上,而E点偏离最远,故去掉E点后剩下的数据的线性相关性最大【答案】A3在一次试验中,当变量x的取值分别为1,时,变量y的值分别为2,3,4,5,则y与的回归曲线方程为() 【导学号:97270064】A.1 B.3C.2x1 D.x1【解析】由数据可得,四个点都在曲线1上【答案】A4有下列说法:在残差图中,残差点比较均匀地落在水平的带状区域内,说明
3、选用的模型比较合适;用相关指数R2来刻画回归的效果,R2值越大,说明模型的拟合效果越好;比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好其中正确命题的个数是()A0 B1 C2 D3【解析】选用的模型是否合适与残差点的分布有关;对于,R2的值越大,说明残差平方和越小,随机误差越小,则模型的拟合效果越好【答案】D5观察下列各图,其中两个分类变量x,y之间关系最强的是()ABCD【解析】在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强【答案】D6在22列联表中,下列哪两个比值相差越大,两个分类变量有关系的可能性就越大()A.与 B.与C.
4、与 D.与【解析】当ad与bc相差越大,两个分类变量有关系的可能性越大,此时与相差越大【答案】A7如图2,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是()图2A相关系数r变大B残差平方和变大C相关指数R2变大D解释变量x与预报变量y的相关性变强【解析】由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小【答案】B8(2016安庆一中期中)在一次对性别与是否说谎有关的调查中,得到如下数据,根据表中数据判断如下结论中正确的是()说谎不说谎总计男6713女8917总计141630A.在此次调查中有95%的把握认为是否说谎与性别有关B在此次调查中有9
5、9%的把握认为是否说谎与性别有关C在此次调查中有99.5%的把握认为是否说谎与性别有关D在此次调查中没有充分证据显示说谎与性别有关【解析】由表中数据得k0.002 423.841.因此没有充分证据认为说谎与性别有关,故选D.【答案】D9某地财政收入x与支出y满足线性回归方程xe(单位:亿元),其中0.8,2,|e|0.5,如果今年该地区财政收入10亿元,年支出预计不会超过()A10亿 B9亿C10.5亿 D9.5亿【解析】代入数据得y10e,|e|0.5,|y|b,a B.b,aC.a D.b,a【解析】由两组数据(1,0)和(2,2)可求得直线方程为y2x2,b2,a2.而利用线性回归方程的
6、公式与已知表格中的数据,可求得,所以a.【答案】C12两个分类变量X和Y,值域分别为x1,x2和y1,y2,其样本频数分别是a10,b21,cd35.若X与Y有关系的可信程度不小于97.5%,则c等于()A3 B4 C5 D6附:P(K2k0)0.050.025k03.8415.024【解析】22列联表如下:x1x2总计y1102131y2cd35总计10c21d66故K2的观测值k5.024.把选项A,B,C,D代入验证可知选A.【答案】A二、填空题(本大题共4小题,每小题5分,共20分将答案填在题中的横线上)13已知一回归直线方程为1.5x45,x1,5,7,13,19,则_. 【导学号:
7、97270065】【解析】因为(1571319)9,且1.545,所以1.594558.5.【答案】58.514某大型企业人力资源部为了研究企业员工工作积极性和对企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:积极支持企业改革不赞成企业改革总计工作积极544094工作一般326395总计86103189对于人力资源部的研究项目,根据上述数据试求K2的观测值为_【解析】根据列联表中的数据,得到k10.76.【答案】10.7615(2016深圳高二检测)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验根据收集到的数据(如下表),由最小二乘法求得回归方
8、程0.67x54.9.零件数x(个)1020304050加工时间Y(min)62758189现发现表中有一个数据模糊看不清,请你推断出该数据的值为_【解析】由表知30,设模糊不清的数据为m,则(62m758189),因为0.6754.9,即0.673054.9,解得m68.【答案】6816某地区恩格尔系数Y(%)与年份x的统计数据如下表:年份x2006200720082009恩格尔系数Y(%)4745.543.541从散点图可以看出Y与x线性相关,且可得回归方程为x4 055.25,据此模型可预测2017年该地区的恩格尔系数Y(%)为_【解析】由表可知2 007.5,44.25.因为 4 05
9、5.25,即44.252 007.54 055.25,所以2,所以回归方程为2x4 055.25,令x2 017,得21.25.【答案】21.25三、解答题(本大题共6小题,共70分解答应写出文字说明、证明过程或演算步骤)17(本小题满分10分)以下是某地区不同身高的未成年男性的体重平均值表.身高/cm60708090100110体重/kg6.137.99.9912.1515.0217.5身高/cm120130140150160170体重/kg20.9226.8631.1138.8542.2555.05(1)给出两个回归方程:y0.429 4x25.318,y2.004e0.019 7x.通过
10、计算,得到它们的相关指数分别是:R0.9311,R0.998.试问哪个回归方程拟合效果更好?(2)若体重超过相同身高男性平均值的1.2倍为偏胖,低于0.8为偏瘦,那么该地区某中学一男生身高为175 cm,体重为78 kg,他的体重是否正常?【解】(1)RR,选择第二个方程拟合效果更好(2)把x175代入y2.004e0.019 7x,得y62.97,由于1.241.2,所以这名男生偏胖18(本小题满分12分)关于x与y有如下数据:x24568y3040605070为了对x,y两个变量进行统计分析,现有以下两种线性模型:甲模型6.5x17.5,乙模型7x17,试比较哪一个模型拟合的效果更好【解】
11、R110.845,R110.82.又84.5%82%,甲选用的模型拟合效果更好19(本小题满分12分)为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:质量监督员甲在生产现场时,990件产品中合格品有982件,次品有8件;甲不在生产现场时,510件产品中合格品有493件,次品有17件试分别用列联表、独立性检验的方法分析监督员甲是否在生产现场对产品质量好坏有无影响?【解】(1)22列联表如下:合格品数次品数总计甲在生产现场9828990甲不在生产现场49317510总计1 475251 500由列联表可得|acbd|982174938|12 750,相差较大,可在某种程度上认
12、为“质量监督员甲是否在生产现场与产品质量有关系”(2)由22列联表中数据,计算得到K2的观测值为k13.0976.635,所以在犯错误的概率不超过0.01的前提下,认为质量监督员甲是否在生产现场与产品质量有关系20(本小题满分12分)有两个分类变量x与y,其一组观测值如下面的22列联表所示:y1y2x1a20ax215a30a其中a,15a均为大于5的整数,则a取何值时,在犯错误的概率不超过0.1的前提下认为x与y之间有关系?【解】查表可知,要使在犯错误的概率不超过0.1的前提下认为x与y之间有关系,则k2.706,而k.故k2.706,得a7.19或a2.04.又a5且15a5,aZ,解得a
13、8或9,故a为8或9时,在犯错误的概率不超过0.1的前提下认为x与y之间有关系21(本小题满分12分)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:年份2007200820092010201120122013年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入附:回归直线的斜率和截距的最小二乘法估计公式分别为:,.【解】(1)由所给数据计算得(1234567)4,(
14、2.93.33.64.44.85.25.9)4.3, (ti)2941014928, (ti)(yi)(3)(1.4)(2)(1)(1)(0.7)00.110.520.931.614,0.5,4.30.542.3,所求回归方程为0.5t2.3.(2)由(1)知,b0.50,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元将2015年的年份代号t9代入(1)中的回归方程,得0.592.36.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元22(本小题满分12分)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其
15、中女性有55名下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:图3将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性(1)根据已知条件完成下面的22列联表,并据此资料判断“体育迷”与性别是否有关?非体育迷体育迷总计男女总计(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率附:K2,P(K2k0)0.050.01k03.8416.635【解】(1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而完成22列联表如下:非体育迷体育迷总计男301545女451055总计7525100将22列联表中的数据代入公式计算,得k3.030.因为3.0303.841,所以我们没有理由认为“体育迷”与性别有关(2)由频率分布直方图可知,“超级体育迷”为5人,其中女生为2人记:从“超级体育迷”中取2人,至少有1名女性为事件A.则P(A),即从“超级体育迷”中任意选取2人,至少有1名女性观众的概率为.