1、第三篇资料分析与表达第十一章 定量资料分析当我们运用前述的各种方法收集到一批数据资料后,接下来的任务就是要对这些资料进行统计分析。在这一章中,我们将按定量资料分析的程序,对原始数据的整理、录入,以及单变量分析、双变量分析和多变量分析作简要的介绍。有关统计分析方法的更为详细的介绍,超出了本书的范围。读者可参阅专门的社会统计学著作。第一节 资料的整理与录入一、资料的审核资料审核(data auditing)是资料处理的第一步工作。它是指研究者对所收集的原始资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。其目的是使得原始资料具有较高的准确性、完整性和真实性,从
2、而为后续资料整理录入与统计分析工作打下较好的基础。资料的审核工作包含两方面的内容:一是检查出问卷资料中的问题;二是重新向被调查者核实。在实践中,资料的审核工作有两种不同的做法,一种是在收集资料的过程中进行,即边收集边审核。一旦发现填答错误,或漏填误填,或其他一些有疑问的情况,就及时进行询问核实。这样,当资料的收集工作结束时,资料的审核工作也已完成。这种资料审核的方式称为实地审核。另一种做法是,先将资料全部收回,然后再集中时间进行审核。这种资料审核方式称为系统审核或集中审核。实地审核的长处是特别及时,且效果较好;其困难是资料收集工作的组织和安排要特别仔细,调查员个人处理各种情况的能力要比较强。系
3、统审核的好处是资料收集工作便于统一组织安排和管理,审核工作也可以统一在研究者的指导下进行,审核的标准比较一致,检查的质量也相对好一些。但整个工作的周期则会相对拉长,少数个案的重新询问和核实工作有时因时间相隔较长或空间相距太远而无法落实。二、资料的转换在前面介绍问卷设计时,我们曾指出,编码就是给每个问题及答案一个数字作为它的代码。到了资料处理阶段,我们需要将被调查者对问卷中问题的回答转换成供计算机识别和统计的数字。表111就是一份问卷中被调查者对前几个问题的回答,以及我们将他们回答的答案转换成的数字。表111 资料转换示例表格式问题的答案进行转换时还要特别注意它的方向性。比如表112。表112
4、对婚事花费态度的调查(在每一行所选项下打“”)非常同意同意无所谓不同意很不同意婚事应该尽量办得简单一些结婚是人生一件大事,婚事应该办得隆重热闹、花再多钱也值得就是有钱,婚事也不应大操大办前面第七章讨论问卷设计时,我们曾指出,对于赞同节俭办婚事的看法,我们按1=非常同意,2=同意,3=无所谓,4=不同意,5=很不同意来赋值;而对赞同婚事大操大办的看法,我们则按5=非常同意,4=同意,3=无所谓,2=不同意,1=很不同意来赋值。这样,上例三种看法的具体赋值情况如表113。表113 三种看法的赋值非常同意同意无所谓不同意很不同意看法看法看法151242333424515所以,对于这个回答者的答案,我
5、们应该将其转换成:2、2、1。由于社会研究的样本规模通常达到成百上千,而一份问卷中又包括好几十个问题,这样问卷资料转换的任务往往十分繁重,需要多人共同完成。为了减少资料转换工作中的误差,保证资料转换数据的质量,研究者需要编制一份编码手册(也称编码簿)发给编码员,每个编码员按编码手册的要求,统一进行资料转换。在编码手册中,研究者将编码的项目和问题一一列出,逐一规定它们的代码、宽度、栏码、简要名称、答案赋值方式及其他特殊规定等等。整个编码手册的格式要规范统一,指示要明确,且容易理解,便于操作。表114是编码手册的例子。表114 编码手册(节选)项目名称变量名含义宽度栏码答案赋值区V城区111=武昌
6、 2=汉阳 3=江汉4=江岸 5=青山 6=桥口个案号ID个案号425根据问卷上的号码填写问题A1A1性别161=男 2=女 0=无回答问题A2A2年龄278按实际年龄填写大于99岁的填99问题A3A3文化程度191=小学及以下 2=初中3=高中及中专 4=大专以上三、数据录入当问卷的答案转化成数据资料后,接下来的工作就是将这些数据资料录入到计算机中,以便于利用专门的统计分析软件如SPSS、SAS等进行分析。数据的录入有两种主要的方式:一种方式是直接在SPSS软件中进行录入(有关用SPSS软件录入数据的方法,读者可参见各种介绍SPSS软件的专门著作)。另一种方式是采用专门的数据库软件,如Exc
7、el、FoxPro等进行录入(这类数据库软件的使用方法也同样有专门的著作介绍),然后再用SPSS软件将录好的数据读人即可(Excel、FoxPro等软件录入后生成的是XLSX格式或DBF格式的数据,SPSS可以直接将这种数据转化成SPSS的SAV格式文件)。两类软件在录入的操作方式上都不太复杂,不同的研究者有不同的喜好。但从两类软件的特点和输入方法上看,专门性的数据库软件往往能较好地保证录入的正确性,相对来说更能减少录入数据时所产生的误差。由于一项调查的问卷数据总量往往是很大的,通常需要多个录入人员共同完成。因此,研究者要精心组织录入工作。从人员挑选、培训、分工、检查等多方面做好安排。四、数据
8、清理在数据资料的录入过程中,无论我们组织安排得多么仔细,录入员工作多么认真,还是难免会出现一些小的差错。因而在开始进行计算机统计分析之前,应仔细地进行数据清理工作,不让有错误的数据进入运算过程。数据清理工作是在计算机的帮助下进行的,通常有下列几种方法。有效范围清理对于问卷中的任何一个变量来说,它的有效的编码值往往都有某种范围,而当数据中的数字超出了这一范围时,可以肯定这个数字一定是错误的。比如,如果在数据文件的“性别”这一变量栏中,出现了数字5或者7、8等,我们马上可以判定这是错误的编码值。因为根据编码手册中的规定,“性别”这一变量的赋值是1=男,2=女,0=无回答。凡是超出这三者范围的其他的
9、编码值,都肯定是错误的。要检查出所有不符合要求的编码值,我们只需在计算机上,用SPSS软件(或其他软件)执行一条统计各变量频数分布(frequency)的命令。计算机很快就能给出下述形式的结果:这是某项调查中变量A5的频数分布。其中,有效编码值为0、1、2、3、4,0为缺省值。第一栏为变量的取值;第二栏为所对应的频数(个案数);第三栏为频数所对应的百分比;第四栏为去掉缺省值以后各频数所对应的百分比(称做有效百分比);最后一栏为累计的有效百分比。当我们发现频数分布表中变量的取值出现了超出编码手册所规定的赋值范围时(此例中的6、7),可通过计算机将这些个案查找出来,并同原始问卷进行核对和修改。如果
10、一份问卷中错答、乱答的问题不止一两处,则可考虑将这个个案的全部数据取消,作为废卷处理。有效范围清理是一种最基本的清理方法,特别是对录入错误的查找有较好效果。逻辑一致性清理逻辑一致性清理则是从另一种角度来查找数据中所存在的问题。它比有效范围清理要稍微复杂一些。其基本思路是依据问卷中的问题相互之间所存在的某种内在的逻辑联系,来检查前后数据之间的合理性。比如,问卷中有这样一对相倚问题。其过滤性问题是:“你们有孩子吗?”答案为“1有;2没有”。而后续性问题是:“请问你们的孩子今年多大了?”那么,对于那些在前一问题中回答“没有”的人(即编码为2的人),在后一问题中的回答应该是空白(即为缺省值,用0来表示
11、),如果在这些人中,有的人的第二个答案上出现了4、6或9这样的数字,那么这些个案的数据就一定有毛病。其他一些具有前后内在逻辑矛盾的例子如:编码为“男性”的个案数据中,出现了“怀孕次数”的答案数字;编码为“独生子女”的个案中,出现了“哥哥、姐姐的个数与年龄”的答案数字;编码为“未婚”的个案数据中,出现了“配偶文化程度、年龄、职业”的答案数字等等。要查找和清理有上述错误的个案,需要在SPSS软件中执行条件选择命令(IF)。比如,先用IF命令将所有回答“没有孩子”的个案挑出来,单独做频数统计;再按前述有效范围清理的方法,找到那些在“孩子的年龄”变量上编码值不为零的个案。同样,先用IF命令将未婚者挑出
12、来,单独做频数统计;然后找到那些在变量配偶年龄上,出现有非零编码值的个案。再根据这些个案的编号找来原始问卷进行核对,纠正错误。逻辑一致性清理还可以采取SPSS中构成新变量的命令(即 compute命令)来进行。读者可参考有关SPSS统计分析的著作。数据质量抽查尽管采取了上述两种方法对数据进行清理,但仍会有一些错误的数据无法查出来。一个很简单的例子:假设某个案的数据在“文化程度”这一变量上输错了,问卷上填答的答案是2(初中),编码值也是2,但数据录入时却错敲成了3(高中及中专)。由于3这个答案在正常有效的编码值范围中,因此,前一种方法检查不出这一错误。同时,这一变量值与其他变量之问又没有前述“性
13、别”与“怀孕次数”、“未婚”与“配偶年龄”那样的逻辑联系,因此后一种方法也用不上。查出这类输入错误的唯一办法是拿着原始问卷一份一份地、一个答案一个答案地进行校对。但实际调查中却没有一个人这么去做,因为那样做的工作量实在太大了。作为一种妥协,人们往往采用随机抽样的方法,从样本的全部个案中,抽取一部分个案,进行这种形式的校对工作。用这一部分个案校对的结果,来估计和评价全部数据的质量。第二节 单变量统计分析一、单变量描述统计单变量统计分析可以分为两个大的方面,即描述统计和推论统计。描述统计的主要目的在于用最简单的概括形式反映出大量数据资料所容纳的基本信息。它的基本方法包括集中趋势分析、离散趋势分析等
14、。而推论统计的主要目的,则是用从样本中所得到的数据资料来推断总体的情况,它主要包括区间估计和假设检验等。集中趋势分析集中趋势分析(central tendency analysis)指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。最常见的集中趋势有算术平均数(简称平均数,也称为均值)、众数和中位数三种。这里只对使用最多的平均数略作介绍。平均数的定义是:总体各单位数值之和除以总体单位数目之商。统计分析中习惯以X来表示。其计算公式如下:如果是单值分组资料,那么,计算平均数时首先要将每一个变量值乘以所对应的频数f,然后将各组的数值之和全部相加,并除以单位
15、总数(也即各组频数之和)。其公式是:在调查收入、年龄等方面情况时,常常得到组距分组形式的资料(比如,人口普查的许多数据就是以年龄分组的形式给出的,即我们常常知道的是04岁、59岁、1014岁等年龄段的人数、他们的各种特征等)。这时,若要计算样本的平均数,就需要先计算出各组的组中值,然后再按照上述单值分组资料计算平均数的公式计算。组中值的计算公式为:实际工作中,对于这种连续数据分组的情况,组中值可采用下列公式计算:例1 调查某企业100名职工的收入,得到表115中的资料,计算他们的平均收入。表115 某企业100名职工的收入分布收入(元)职工数(人)组中值xf100l99200299300399
16、40049950059910104020201502503504505501500250014000900011000合计10038000离散趋势分析与集中趋势分析相反,离散趋势分析(dispersion tendency analysis)指的是用一个特别的数值来反映一组数据相互之间的离散程度。它与集中趋势一起,分别从两个不同的侧面描述和揭示一组数据的分布情况,共同反映出资料分布的全面特征。同时,它还对相应的集中趋势(如平均数、众数、中位数)的代表性作出补充说明。为了理解离散趋势分析的这种作用,我们先来看看下面的例子。例2 某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:7
17、8 79 80 81 82 =80数学系:65 72 80 88 95 =80英语系:35 78 89 98 100 =80无论是从团体总分来看,还是从平均得分来看,这三个系代表队的成绩都是相同的。因此,如果仅以集中趋势的统计量(平均数)来衡量,那么,三个系代表队的水平一样高,不存在什么差别。但从直观上我们不难发现,三个代表队中五名队员的成绩相互之间的差距程度(离散程度)很不一样。虽然他们三个队的平均成绩都是80分,但80分对中文系队同学的代表性最高,而对英语系队同学的代表性最低。常见的离散趋势统计量有全距、标准差、异众比率、四分位差等。其中,标准差、异众比率、四分位差分别与平均数、众数、中位
18、数相对应,判定和说明平均数、众数、中位数代表性的大小。下面我们主要介绍标准差和离散系数。标准差的定义是:一组数据对其平均数离差平方的算术平均数的平方根。它是用得最多、也是最重要的离散趋势统计量,其计算公式为:比如,将前面例2的资料代入后可得:S(中文系)=1414(分)S(数学系)=108(分)S(英语系)=238(分)从上述结果中可知,中文系代表队的标准差最小,数学系队其次,而英语系队最大。这一结果很好地反映出各队队员成绩之间的离散程度,同时也反映出80分的平均成绩对中文系代表队的代表性最大,而对英语系队的代表性最小。对于单值分组数据资料,计算标准差的公式略有变化:其中,f为xi所对应的频数
19、。由组距分组资料计算标准差时,只需先计算出各组的组中值,然后按照单值分组资料计算标准差的公式和方法计算即可。离散系数是一种相对的离散趋势统计量,它使我们能够对同一总体中的两种不同的离散趋势统计量进行比较,或者对两个不同总体中的同一离散趋势统计量进行比较。离散系数的定义是:标准差与平均数的比值,用百分比表示。其计算公式为:例3 一项调查得到下列结果:某市人均月收入为92元,标准差为17元,人均住房面积75平方米,标准差为18平方米。试比较该市人均收入和人均住房情况哪一个差异程度比较大。解人均收入的离散系数为:人均住房面积的离散系数为:可见人均住房面积的差异情况比人均收入的差异情况要大。这是同一总
20、体不同指标间的比较,下例则是属于同一指标不同总体间的比较。例4 对广州和武汉两地居民生活质量的调查发现,广州居民平均收入为680元,标准差为120元;武汉居民平均收入为360元,标准差为80元。问广州居民相互之间在收入上的差异程度,与武汉居民相互之间在收入上的差异程度哪一个更大一些?解广州居民收入的离散系数为武汉居民收入的离散系数为可见比较而言,武汉居民相互之间在收入上的差异程度,比广州居民相互之间的差异程度更大一些。二、单变量推论统计推论统计就是根据样本的情况推论总体的情况。推论统计的内容主要包括两个方面:一是区间估计;二是假设检验。区间估计区间估计(interval estimation)
21、的实质就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来估计总体的参数值。范围的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性问题。区间估计的结果通常可以采取下述方式来表述:“我们有95的把握认为,全市职工的月工资收入在182218元之间。”或者“全省人口中,女性占5052的可能性为99”。区间估计中的可靠性或把握性是指用某个区间去估计总体参数时,成功的可能性有多大。它可以这样来解释:如果从总体中重复抽样100次,约有95次所抽样本的统计值的某个区间中都将包含总体的参数值,那么就说这个区间估计的可靠性为95。对于同一总体和同一抽样规模来说,所
22、给区间的大小与作出这种估计所具有的把握性呈正比,即所估计的区间越大,则对这一估计成功的把握性也越大;反之,则把握性越小。实际上,区间的大小所体现的是估计的精确性问题,二者呈反比,即区间越大,精确程度越低;区间越小,精确程度越高。从精确性出发,要求所估计的区间越小越好;但从把握性出发,又要求所估计的区间越大越好。因此,人们总是需要在这二者之间进行平衡和选择。在社会统计分析中,常用的置信度分别为90、95和99。在计算公式中,置信度常用1a来表示。下面我们分别介绍总体均值和总体百分数的区间估计方法。(1)总体均值的区间估计。总体均值的区间估计公式为:其中,叉为样本平均数;S为样本标准差;Z1-a为
23、置信度,是1-a的对应的临界值;n为样本规模。常用的三种置信度分别为90、95、99,它们所对应的临界值分别为165、196和258。例5调查某厂职工的工资状况,随机抽取900名工人作样本,调查得到他们的月平均工资为1860元,标准差为420元。求95的置信度下,全厂职工的月平均工资的置信区间是多少。解将调查资料代入总体均值的区间估计公式得:95的临界值为196,故总体均值的置信区间为:当我们希望提高估计的可靠性时,就必须相应扩大置信区间。比如,当我们将置信度提高到99时,那么,此时的Z(1-0.01)=258,所以,总体均值的置信区间为:可见随着可靠性的提高,所估计的区间扩大了,但估计的精确
24、性就相应地降低了。(2)总体百分数的区间估计。总体百分数的区间估计公式为:这里,P为样本中的百分比。例6从某工厂随机抽取400名工人进行调查,结果表明女工的比例为20。现在要求在90的置信度下,估计全厂工人中女工比例的置信区间。解代入公式得:假设检验假设检验问题是推论统计中的另一种类型。首先需要说明的是,这里的假设不 是指抽象层次的理论假设,而是指和抽样手段联系在一起并且依靠抽样数据进行验 证的经验层次的假设,即统计假设。假设检验(hypothesis test),实际上就是先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以决定假设是否为总体所接受。假设检验所依据的是概率论中的小概率
25、原理,即“小概率事件在一次观察中不可能出现”的原理。但是,如果现实的情况恰恰是在一次观察中小概率事件出现了,那该如何判断呢?一种是认为该事件的概率仍然很小,只不过不巧被碰上了;另一种则是怀疑和否定该事件的概率未必很小,即认为该事件本身不是一种小概率事件,而是一种大概率事件。后一种判断更为合理,它所代表的正是假设检验的基本思想。我们举例说明假设检验的基本思路。某单位职工上月平均收入为210元,这个月的情况与上月相比没有什么变化,我们设想平均收入还是210元。为了验证这一假设是否可靠,我们抽取了100人做调查,结果得出月平均收入为220元,标准差为15元。显然样本的结果与总体结果之间出现了误差。这
26、个误差是由于我们假设错误引起的,还是由于抽样误差引起的呢?如果是抽样误差引起的,那么我们就应该承认原来的假设;而如果是假设错误引起的,显然我们就应该否定原假设。研究者将原假设作为虚无假设,而将与之完全对立的假设作为研究假设;然后用样本的数据计算统计量,并与临界值比较,当临界值大于统计值的绝对值时,则接受虚无假设,否定研究假设;当临界值小于等于统计值的绝对值时,则拒绝虚无假设,接受研究假设。概括起来,假设检验的步骤是:(1)建立虚无假设和研究假设,通常是将原假设作为虚无假设。(2)根据需要选择适当的显著性水平a(即概率的大小),通常有a=005,a=001等。(3)根据样本数据计算出统计值,并根
27、据显著性水平查出对应的临界值。(4)将临界值与统计值进行比较,若临界值大于统计值的绝对值,则接受虚无假设;反之,则接受研究假设。例7某单位职工上月平均收入为210元,本月调查了100名职工,平均月收入为220元,标准差为15元。问该单位职工本月平均收入与上月相比是否有变化?解首先建立虚无假设(用H0表示)和研究假设(用H1表示),即有:H0:=210H1:=210选择显著性水平a=005,由标准正态分布表查得Z(0.05/2)=196Z(0.052)表示双尾检验,然后根据样本数据计算统计值,其公式为:由于Z=667Z(0.05/2)=196,所以,拒绝虚无假设,接受研究假设,即从总体上说,该单
28、位职工月平均收入与上月相比有变化。第三节 双变量统计分析双变量统计分析主要探讨两个变量之间的关系。根据变量层次的不同,这种分析所采取的具体形式也不一样。一、交互分类与x2检验交互分类交互分类(cross-tabulation)是一种专门用来分析两个定类变量(或一个定类变量,一个定序变量)之间关系的统计分析方法。它是将研究所得的一组数据按照两个不同的变量进行综合的分类,其结果通常以交互分类表(又称为列联表)的形式反映出来。表116就是交互分类表的一个例子。表116 某次调查样本的构成情况统计表 单位:人表116是对总数为300人的调查样本按年龄和性别两个变量进行交互分类的结果。样本中的每一个对象
29、都被归入由这两个标准所划分出来的六个类别之一中。通过这种交互分类表,我们不仅可以知道样本中男性、女性各有多少,或者青年、中年、老年各有多少,同时还可以进一步知道男性青年、男性中年女性老年各有多少。为了说明交互分类表的作用,我们举一个简单的例子。假设在一次抽样调查中,我们得到表117的结果。表117 人们对某政策的态度统计表()赞成反对不表态调查人数454510n=2000从这一结果中,我们只能得到“该总体中持赞成态度和持反对态度的人大致相等”的结论。但是,当我们按性别对此结果进行交互分类统计时,又有表ll8的结果。表118 不同性别的人们对某政策的态度统计表()这一结果清楚地向我们表明:不同性
30、别的人们对这一政策的态度有很大的差别,男性基本上倾向于赞成,而女性则主要倾向于反对。这一结果就更深入、更科学地反映出客观现实。类似地,我们还可以做出年龄与态度、职业与态度、文化程度与态度等多种交互分类表,以分别研究不同年龄的人、不同职业的人、不同文化程度的人对这一政策的态度有何不同。从这个例子中,我们很容易理解交互分类的第一个作用,这就是可以较为深入地描述样本资料的分布状况和内在结构。但交互分类的更重要的作用则是可以对变量之间的关系进行分析和解释。为了说明这一点,我们来看下面的例子。假设我们调查了解500名工人的工资收入情况,按照前面所介绍的单变量描述统计的方法,我们可以得到表119所列的单项
31、分组统计表。表119 500名工人的工资收入分布表根据表119的结果,我们可以知道工人工资收入的总体分布状况。同时,我们还可以通过计算工资收入的平均值或中位值,来概括和说明工人工资收入的总体水平。但是,我们不知道为什么工人的工资收入这样分布。现在,我们引进另外一个变量,比如说文化程度,对上述资料进行交互分类,看看能有什么新的发现(见表1110)。表1110 500名工人的文化程度与工资收入交互分类表 单位:人尽管在上述交互分类表中,我们已经可以大概地看出一些分布的趋势和特点,但由于样本中成员在文化程度变量的不同值上的分布频数互不相同,因而难以进行比较和分析。为此,我们将表1110转化为按“文化
32、程度”这一变量方向计算的百分比表,结果见表1111。表1111 500名工人文化程度与工资收入的交互分类表()当把表1110转化为表1111后,很容易对不同文化程度的工人的收入情况进行比较。这就是交互分类表的第二个作用,即分组比较;同时这也是我们分析变量间关系的基础。从表1111中可知,在总共500名工人中,工资收入较高的只有10,但在文化程度较高的工人中,却有58是高工资收入;另外,在500名工人中,低工资收入的比例为40,而在低文化程度的工人中,低工资收入的比例却达到了78,相比之下,高文化程度工人中的低收入者只占11,远远低于低文化程度工人的比例。通过将表1111里每一横行中的百分比进行
33、相互比较,我们不难看出文化程度与工资收入水平之间的关系,这就是:文化程度不同的工人,其工资收入水平也不同。总的趋势是文化程度越高的工人中,工资收入水平高的比重越大;而文化程度越低的工人中,工资收入水平低的比重越大。这就是一个正的相关关系。总之,交互分类表既可以用来对总体的分布情况和内在结构进行描述,又可以用来进行分组比较,还可以用来解释变量之间的关系。但是,需要指出的是,上述结论通常只是在所调查的样本范围内成立。而我们进行研究的目的常常又不仅仅是描述或说明样本的情况,更重要的是要通过样本的情况来反映和说明总体的情况。因此,要保证我们从样本中得出的结果具有统计意义,保证样本中所体现的变量间关系也
34、反映了总体的情况,就必须对它们进行x2检验(读做卡方检验)。x2检验为了说明)(x2检验的必要性,我们先来看下面的例子。调查某地区中学生的升学意愿,得到表1112的结果。表11一12 两类学生的升学意愿分布()升学意愿城市中学生农村中学生想考大学78.665.9不想考大学21.434.1(n)(309)(44)如果仅仅从交互分类表中的百分比来看,我们也许会得到这样的结论:两类中学生之间在是否想考大学这方面存在明显差别,城市中学生想考大学的比例明显高于农村中学生的比例(二者之间的差别达到了13左右)。但是,如果用这一结果来反映总体的情况,那么就会歪曲了现实。实际上,表1112所反映的只是样本的情
35、况,样本结果中所表现出的差异能不能代表总体的情况,还得经过统计检验。下面我们对上述结果进行x2检验。通过计算,得出表1112数据的x2值为3692,小于显著度为005的临界值3841。所以,我们可以得出结论说:在表1112中所表现出来的两类中学生之间的差异,是由于抽样的随机误差造成的,它在总体中并不存在。我们也可以说,总体中两类中学生之间在是否想考大学这方面不存在明显差别。x2检验的原理及所用计算公式的证明都比较复杂,这里暂且略去。我们只对x2检验的步骤进行说明。y2的计算公式为:式中f0为交互分类表中每一格的观察频数;fe为交互分类表中f0。所对应的期望频数。为了计算x2,必须先计算出每一格
36、f0所对应的fe(即期望频数),具体的计算方法是用每一个f0所在的行总数乘以它所在的列总数,再除以全部个案数。由于SPSS统计分析软件中已有计算x2的程序,所以,我们无须手工计算。x2检验的具体步骤是:首先,建立两变量间无关系的假设。然后计算出x2值。再根据自由度df=(r-1)(c-1)和给出的显著性水平,即P值,查y2分布表,得到一临界值。自由度计算公式中的r和C分别为交互分类表的行数和列数。将计算出的x2值与查得的临界值进行比较,若x2值大于或等于临界值,则称差异显著,并拒绝两变量独立的假设,也即承认总体中两变量间有关系;若x2值小于临界值,则称差异不显著,并接受两变量独立的假设,即总体
37、中两变量问无关系。当然,x2检验也有其弱点。这主要是由于x2值的大小不仅与数据的分布有关,同时它还与样本的规模有关。当样本足够大时,一些很小的分布差异也可以通过x2检验达到显著性水平。从表1113中所列的三个交互分类表中,我们可以明白这一道理。表11一13 性别与态度间的关系()表1113(1)与表1113(2)的样本规模相同,且比较小,因此,只有变量分布的差异较大时表1113(1)中相差20,才有可能通过x2检验,达到显著性水平(P005);而当变量分布差异较小时,则不行;但是表1113(3)与表1113(2)的百分比分布并没有改变,但样本规模扩大了5倍,导致x2值也扩大,结果通过了x2检验
38、,而且达到了较高的显著性水平(P001)。这说明,对于大样本来说,确定变量间存在“有显著性”的关系并无很大意义,更重要的问题倒是:“如果变量之间存在关系,其强度有多大?”拓展阅读交互分析实例二、不同层次变量的相关测量与检验前面我们主要讨论的是交互分类表中两个变量间是否存在关系的问题。当x2检验表明,两变量间存在关系时,是否就意味着这种关系是一种强关系,或重要关系呢?这不一定,因为变量关系的强弱和变量间是否存在关系是两个完全不同的问题。也许有人会猜想用显著性水平的高低来判断或估计变量间关系的强弱。比如,如果一个x2检验的显著性水平是0001,另一个是005,我们可能会得出第一个x2检验中的变量关
39、系较强的结论。但情况并非如此,尽管不同的显著性水平代表着不同的临界值(在同一自由度下,显著性水平越高,则临界值也越大),但它们反映的只是确定变量间存在关系的可信程度,即把第一个检验中的变量关系与第二个检验中的变量关系相比较,我们更相信前者的存在。或者说,得出变量问存在关系的结论时,前者犯错误的概率更小。而它并不说明第一个关系比第二个关系更强。要判断两个变量之间的相关强度,必须进行相关系数的计算。而这种相关系数的计算与变量的层次有着密切的关系。定类变量与定类变量如果两个变量都是定类层次,或一个定类一个定序,我们可以采用系数进行测量。A系数优于其他几种相关统计量的地方,是它具有消减误差比例(PRE
40、)的意义。我们知道,社会研究的主要目标是解释或预测社会现象的变化,而这种预测中难免会有误差。对于两个有关系的变量来说,在我们知道变量X的值去预测与它相关的变量Y的值时所存在的误差(E2),显然比我们不知道X的值去预测Y的值时所存在的总误差(E1)要小。所谓消减误差比例(proportionate reduction in er- ror,PRE)指的是知道X的值时所减少的误差(E1一E2)与总误差的比。用公式表示为:PRE越大,表示以X值去预测Y值时能够减少的误差所占的比例越大。换句话说, X与Y之问就越是相关,或者说,X与Y的关系越强。比如说,PRE=070,表示以X预测Y时能减少70的误差
41、,说明二者之间的相关程度较高;而PRE=009,则表示只能消减9的误差,即X与Y之间的关系微弱。系数的基本特点是以众值作为预测的准则。其计算公式为:式中,f0表示变量x的每一个值之下变量Y的众值,Fy表示变量Y的边际分布中的众值。下面以表1116中的资料为例,来说明(入)的计算方法。表1116 性别与对吸烟态度的交互分类 单位:人根据入计算公式,有:因此,我们可以说,性别与对吸烟态度之间存在中等程度的相关。也可以说,用性别去预测对吸烟的态度,比仅用对吸烟态度自身的资料(即边际分布的众值114)去预测对吸烟的态度,可以减少51的误差。系数的优点是具有PRE意义,其缺点是仅利用众值资料。当表中的众
42、值都集中在同一行时,(入)系数就会等于零(此时则应采用计算其他相关系数)。定序变量与定序变量如果两个变量都是定序变量,我们可以用古德曼和古鲁斯卡的Gamma系数来测量它们之间的相关关系。Gamma系数通常用G表示,其取值范围是-1,+1,适用于分析对称关系,且既表示相关的方向性,又表示相关的程度。Gamma系数与(入)系数一样,也具有消减误差比例的意义。Gamma系数的计算公式为:式中,Ns表示同序对数目,Nd表示异序对数目。所谓同序对,指的是变量大小顺序相同的两个样本点,即其在变量X上的等级高低顺序与在变量Y上的等级高低顺序相同;否则就叫做异序对。当然,在社会研究常用的SPSSPC+或SPS
43、S for Windows统计分析软件中,都可以直接给出Gamma系数的值,而不用我们去计算了。要将随机样本中有关两定序变量间关系的结果推论到总体,同样必须对其进行统计检验。Gamma系数的抽样分布在随机抽样和样本规模较大的前提下,近似于正态分布。因而其检验通常采用Z检验的方法进行。为了进行Z检验,必须先将G值标准化为Z值,转化的公式为:定类变量(或定序变量)与定距变量当两个分析的变量一个为定类(或定序)变量,另一个为定距(以上)变量时,我们用相关比率(Correlation ratio)或eta系数来测量二者间的相关程度。相关比率又称为eta平方系数,记为E2,其数值范围为01,也具有消减误
44、差比例的意义。其计算公式为:应该注意,相关比率E2的计算中有自变量和因变量之分。式中,y为因变量的数值,为因变量的均值;i为在自变量x的每个取值xi上的因变量的均值。通常,为了计算方便,常将上述公式化为下列形式:式中,ni为x变量每一取值的频数合计值,n为总的频数值,关于定序变量与定距变量的相关分析,还有一点需略作说明。有些社会研究者在对资料进行统计分析时,常常将定序变量看做(并非实际等于)定距变量,采用后面将讲到的积矩相关系数来进行计算,甚至进行线性回归分析。比如,将文化程度高、中、低转化为高=3,中=2,低=1,然后将它们作为定距资料进行运算和统计。事实上,这些数字(3,2,1)只具有等级
45、的含义,而不具备定距层次的数学特质,即不能进行加减乘除运算。严格意义上,这样做是不行的。之所以一些研究者这样做,一个主要的原因是当变量上升到定距层次后,便于用来进行各种多元统计分析。相关比率E2的检验采用的是F检验法,其计算公式为:式中,k为分组数目,n为样本规模;k-1=df1,n-k=af2。定距变量与定距变量前面几类相关的测量,大多利用变量值的次数来进行计算。这是由于定类、定序变量的数学特征所决定的。对于定距变量来说,由于其数学特征的不同,我们可以用更精确一些的相关系数来反映它们之间的相关程度。这种更精确的相关系数就是皮尔逊相关系数(或称皮尔逊积差相关系数)r。皮尔逊相关系数的计算公式为
46、:它具有这样几个特点:第一,公式中x与y是对等的,即将二者位置互换,r的值不变。它说明r是一种对称关系的测量。第二,(可以证明)r的取值范围在-1到1之间。第三,r的取值具有方向性。第四,r本身不具有消减误差比例的意义,但其平方r2(又称为决定系数)具有消减误差比例的意义。在双变量统计中,皮尔逊相关系数r的检验既可采用F检验的方法,也可采用t检验的方法,因为F=t2。F检验的计算公式如下:t检验的计算公式则为:我们已经介绍了各种层次变量之间的相关测量与检验方法。这里,我们对它们作一总结(见表1117),同时,有几点还必须特别强调:(1)各种相关测量的方法,目的是理解两个变量在“样本”中相关程度的强弱或大小。(2)对各种相关系数所进行的相应的检验,目的是根据随机样本的资料推论两个变量在“总体”中是否相关。它所关心的已不是样本中的结果,而是总体中的情形,并且,它所关心也不是相关程度的强弱或大小,而只是“是否相关”。(3)选择何种相关测量方法和何种检验方法,主要看两变量的测量层次,要依据变量的测量层次来确定合适的相关检验工具。表1