1、科研数据处理,一、结果整理,检查原始记录和其他原始资料 差错:订正 缺项:补充原始记录一定要详细:时间、地点、操作人、记录人、内容、方法、结果、备注。,从原始资料计算数据研究结束时要及时将图谱、图像资料、切片等转化为可供统计、报告和发表的形式(一般是数据形式)。,荧光定量PCR实验处理,荧光定量PCR实验处理,荧光定量PCR图谱,荧光定量PCR输出数据,荧光定量PCR原始数据,数据及实物的归类和总结结束一项研究后及时将数据和实物进行归类。数据最好输入excel表格,应建立与原始记录本的对应关系,如实验时间。原始数据输入后,要分类汇总,标注上实验时间、内容和方法。,数据和原始资料的保存原始记录本
2、要妥善保存;原始数据汇总表要有备份,存放于不同电脑,刻录于光盘,最好有纸质副本。,Excel简介,Microsoft Excel 是美国微软公司开发的Windows 环境下的电子表格系统,它是目前应用最为广泛的办公室表格处理软件之一。自Excel 诞生以来Excel 历经了Excel5.0、Excel95/97和Excel2000/2003/2007/2010等不同版本。,数据处理功能强大操作简易智能化,特点,(一)分析能力Excel 除了可以做一些一般的计算工作外,还有400 多个函数,用来做统计、财务、数学、字符串等操作以及各种工程上的分析与计算。Excel 还专门提供了一组现成的数据分析
3、工具,称为“分析工具库”,这些分析工具为建立复杂的统计或计量分析工作带来极大的方便。,(二)操作简便当需要将工作表上某个范围内的数据移到工作表上的另一个位置时,只需用按鼠标键,选定要移动的资料,将该范围资料拖动至所需的位置,松开鼠标即可。如果要将公式或数据复制到临近的单元格内,可以拖动“填充柄”,公式或数据就会被复制到目标单元格中。,(三)图表能力在Excel 中,系统大约有100 多种不同格式的图表可供选用,用户只要做几个简单的按键动作,就可以制作精美的图表。通过图表指南一步步的引导,可使用不同的选项,得到所需的结果,满意的话就继续,不满意则后退一步,重新修改选项,直到最后出现完美的图表。,
4、(四)数据库管理能力所谓数据库系统,就是一组有组织的信息。如对于一个公司,每天都会产生许多新的业务数据,例如,销售数据、库存的变化、人事变动的数据资料等。这些数据必须加以处理,才能知道每段时间的销售金额、某个时候的存货量、要发多少薪水给每个员工等。要对这些数据进行有效的处理,就离不开数据库系统。,(五)宏语言功能利用Excel 中的宏语言功能,用户可以将经常要执行的操作的全过程记录下来,并将此过程用一简单的组合按键或工具按扭保存起来。这样,在下一次操作中,只需按下所定义的宏功能的相应按键或工具按钮即可,而不必重复整个过程。在Excel 中,高级用户可使用Visual Basic 语言,进行宏命
5、令的开发。利用宏命令,用户可以将Excel 的下拉菜单和对话框更改或将图形按钮的说明更换,使它们更适合于用户的工作习惯和特殊要求。,(六)样式功能所谓样式,就是将一些格式化的组合用一个名称来表示,以后要使用这些格式化的组合时,只要使用此名称即可,因此可大幅度地节省报表格式化的时间。在Excel 中,用户可以利用各种文字格式化的工具和制图工具,制作出美观的报表。Excel 工作表里的资料,在打印以前可将其放大或缩小进行观察,用户可以对要打印的文件作微调。用户可将要打印出的格式制作好,并存储成样本,以后可以读取此样本文件,就可依据样本文件的格式打印出美观的报表。Excel 的专业文书处理程序具有样
6、式工具。,(七)对象连接和嵌入功能利用对象连接和嵌入功能,用户可将其他软件(例如,画笔)制作的图形插入到Excel 的工作表中。当需要更改图案时,只要在图案上双击鼠标键,制作该图案的程序就会自动打开,图案将出现在该图形编辑软件内,修改、编辑后的图形也会在Excel 内显示出来。也可以将一个声音文件或动画文件嵌入到Excel 工作表中,使工作表变成一幅声形并貌的报表。,(八)连接和合并功能通常,每个工作在一张工作表上执行即可,早期的工作表软件都只能在一张工作表上执行。但有时需要同时用到多张工作表,例如,公司内每个分公司每月都会有会计报表,要将各分公司区的资料汇总起来,就需要用到连接和合并功能。E
7、xcel 很容易将工作表连接起来,并进行汇总工作。Excel内一个工作簿可以存放许多工作表、图形等,每个工作簿文件最多可以由255 张工作表组成。,Excel 工作界面简介,按照从上到下的顺序,Excel 工作界面包含如下几项内容:“标题”栏、“菜单”栏、“工具”栏、“编辑”栏、工作表、工作表标签、滚动条、和“状态”栏。,(一)“标题”栏“标题”栏告诉用户正在运行的程序名称和正在打开的文件的名称。,(二)“菜单”栏“菜单”栏按功能把Excel 命令分成不同的菜单组,它们分别是“文件”、“编辑”、“视图”、“插入”、“格式”、“工具”、“表格”、“帮助”。当菜单项被选中时,引出一个下拉式菜单,可
8、以从中选取相应的子菜单。单击鼠标右键时,“快捷菜单”将出现在鼠标指针处。,(三)“工具”栏Excel 可显示几种工具栏,这些工具可控制简化用户的操作。“工具”栏中的按钮都是菜单中常用命令的副本,当鼠标指向某一按钮后,稍等片刻在按钮右下方会显示该按扭命令的含意。用户可以配置“工具”栏的内容,通过“视图”菜单中的“工具”栏子菜单来选择显示不同类型的“工具”或全部显示出来。,1“常用”工具栏“常用”工具栏中为用户准备了访问Excel 最常用命令的快捷按钮,如“新建文件”按扭,“打开文件”按扭,“保存文件”按钮等。,2“格式”工具栏“格式”工具栏专门放那些和文本外观有关的命令,如字体、字号、对齐方式及
9、其他选项。,(四)“编辑”栏“编辑”栏给用户提供活动单元格的信息。在“编辑”栏中用户可以输入和编辑公式。“编辑”栏由“名字”栏和“公式”栏组成。,(五)工作表工作簿窗口包含了3 张独立的工作表(sheet)。开始时,窗口中显示第一张工作表“Sheetl”,该表为当前工作表。当前工作表只有一张,用户可通过点击工作表下方的标签激活其他工作表为当前工作表。,工作表是一个由行和列组成的表格。行号和列号分别用字母和数字区别。行由上自下范围165536,列号则由左到右采用字母编号AIV。因此每张表为256 列65536 行,若从Excel 导入的数据超过以上范围,则会被Excel 自动截去。每一个行、列坐
10、标所指定的位置称之为单元格。在单元格中用户可以键入符号、数值、公式以及其他内容。,(六)工作表标签工作表标签通常用“Sheet1”,“Sheet2”等名称来表示,用户也可以通过用鼠标双击修改标签名或右击标签名,选择弹出菜单中“重命名”命令来修改标签名。利用标签队列左边的一组标签滚动按钮可显示队列中的后续工作表的标签。工作簿窗口中的工作表称之为当前工作表,当前工作表的标签为白色,其他为灰色。,(七)“滚动”栏当工作表很大时,如何在窗口中查看表中的全部内容呢?可以使用工作簿窗口右边及下边的滚动栏,使窗口在整张表上移动查看,也可以通过修改常用“工具”栏中“显示比例框”的参数来扩大整个工作表的显示范围
11、。,(八)“状态”栏“状态”栏位于Excel 窗口底部,它的左端是信息区,右端是键盘状态区。在信息区中,显示的是Excel 的当前工作状态。在键盘状态区中,显示的是若干按键的开关状态。,Excel 基本操作,要完成任一项Excel 操作一般都可以找到三种操作方法:鼠标操作、菜单操作和键盘命令操作。,例如:将A1 单元格的数据复制到A2 单元格(一)鼠标操作法:先用鼠标选中A1 单元格,然后缓慢移动鼠标到A1单元格的右下角,当鼠标的形状变为黑色实心“十”字形之后(以后称之为“填充柄”),拖动鼠标到A2 单元格,然后放开鼠标,则A1 的数据就复制到A2 单元格了。(二)菜单操作法:先用鼠标选中A1
12、 单元格,选择“编辑”菜单中的“复制”命令,然后用鼠标选中A2 单元格,再选择“编辑”菜单中的“粘贴”命令,数据就复制到A2 单元格了。(三)键盘命令操作法:直接用鼠标选中A2 单元格,从键盘输入“A1”命令,则复制即告完成。,文件基本操作,(一)新建文件(二)打开文件(三)保存文件(四)文件打印,数据的输入,1、数据的手动输入Excel 中以单元格为单位进行数据的输入操作。一般用上下左右光标键,Tab 键或用鼠标选中某一单元格,然后输入数据。Excel 中的数据按类型不同通常可分为四类:数值型,字符型,日期型,和逻辑型。Excel 根据输入数据的格式自动判断数据属于什么类型。,日期型的数据输
13、入格式为“月/日/年”,“月-日-年”或“时:分:秒”。要输入逻辑型的数据,输入“true”(真)或“false”(假)即可。若数据由数字与小数点构成,Excel 自动将其识别为数字型,Excel 允许在数值型数据前加入货币符号,Excel 将其视为货币数值型,Excel 也允许数值型数据用科学记数法表示,如2109 在Excel 中可表示为2E+9。除了以上三种格式以外的输入数据,Excel 将其视为字符型处理。,2、公式生成数据 Excel 的数据中也可由公式直接生成。例如:在当前工作表中A1 和B1单元格中已输入了数值数据,欲将A1 与B1 单元格的数据相加的结果放入C1 单元格中,可按
14、如下步骤操作:用鼠标选定C1 单元格,然后输入公式“=A1+B1”或输入“=SUM(a1:b1)”,回车之后即可完成操作。C1 单元格此时存放实际上是一个数学公式“A1+B1”,因此C1 单元格的数值将随着A1、B1 单元格的数值的改变而变化。,Excel 提供了完整的算术运算符,如(加)(减)*(乘)(除)(百分比)(指数)和丰富的函数,如SUM(求和)、CORREL(求相关系数)、STDEV(求标准差)等,供用户对数据执行各种形式的计算操作,在Excel 帮助文件中可以查到各类算术运算符和函数的完整使用说明。,3、复制生成数据 Excel 中的数据也可由复制生成。实际上,在生成的数据具有相
15、同的规律性的时候,大部分的数据可以由复制生成。可以在不同单元格之间复制数据,也可以在不同工作表或不同工作簿之间复制数据,可以一次复制一个数据,也可同时复制一批数据,为数据输入带来了极大的方便。,1)普通单元格(非公式单元格)的复制:(1)选定(2)鼠标右击该区域,选择“复制”。(3)鼠标右击目标区域,选择“粘贴”。,2)公式单元格的复制(1)值复制:选定。“复制”。“选择性粘贴”、“数值”、“确定”。,(2)公式复制单元格的相对引用:在公式中如果直接输入单元格的地址。单元格的绝对引用:在单元格的地址之前加入“$”符号。公式中“$”符号后面的单元格坐标不会随着公式的移动而变动,而不带“$”符号后
16、面的单元格坐标会随着公式的移动而变动。,4、数据的移动操作选定“剪切”“粘贴”移动操作将把公式单元格的公式内容原原本本移动到目标区域,不作任何改动。,5、数据的删除操作 选定“删除”如果不小心实施了错误的操作,那么可以通过“撤消”操作使工作表恢复原样。,6、与其它软件交换数据的方法 在Excel 中打开其它类型的数据文件:在“文件”菜单中选择“打开”子菜单。在“打开文件”对话框中选择所要打开的文件的类型及其所在的目录。用鼠标双击该文件名,并按Excel 提示步骤操作即可打开该文件。,Excel 文件存为其它类型的数据文件:编辑好文件后,在“文件”菜单中选择“另存为”子菜单。在“另存为”对话框中
17、选择所要打开文件的类型及其所在的目录。输入文件名之后,用鼠标单击“保存”按扭即可。,二、科研统计,1、统计基本概念1)总体和样本一个统计问题所研究对象的全体称为总体(Population)。总体中每一个研究对象称为个体(individual)。按一定的方式从总体中抽取若干个个体构成一个样本(sample)。,从样本推断总体是统计学的主要任务。,2)参数和统计量可用于描述总体分布的数字特征的量称为参数(parameter)。如总体的均数、方差、总体回归系数等。包含总体中任何已知参数的样本指标和样本数据的函数称为统计量(statistics)。如样本均数、中位数、样本标准差、样本率等。,3)参数估
18、计(estimation of parameter)参数估计是指根据总体中抽得的样本,由样本统计量估计总体分布中的未知数。点估计(point estimation):选择一个适当的样本统计量作为总体参数的估计值。,区间估计(interval estimation):根据一定的准确度和精确度要求,确定一个概率水平(如P0.95),由样本统计量计算一个适当的区间作为未知总体参数真值所在的范围。此概率水平称为可信度或置信度,简称信度,也可称为可信水平或置信水平(confidence level)。所估计区间称为可信区间或置信区间(confidence interval)。区间端点称为可信限(conf
19、idence limit),分上限和下限。,4)假设检验假设检验(hypothesis testing)又称显著性检验(significance testing)。建立H0,H1。H0:检验假设(null hypothesis)H1:对立假设或被择假设(alternative hypothesis)选择合适的统计检验方法,计算统计量。,根据检验统计量的分布,计算概率P值,或根据其临界值表,决定P的大小。P0.05:拒绝H1;0.01P0.05:在0.05水平上,拒绝H0;P0.01:在0.01水平上,拒绝H0。,5)两类误差第一类误差(error of the first kind,):拒绝了
20、实际上成立的H0。第二类误差(error of the second kind,):不拒绝实际上不成立的H0。,常见统计概率参数,值:检验水准,也称第一类错误的概率,即组间差异无统计学意义,误判为有统计学意义的概率,0.05说明型误判可能性小于百分之五。值与显著性水平有关,一般取0.01或0.05,1-值即置信度,表示实验结论认为有显著意义的可信度为99或95。值:第二类错误的概率,即组间差异有统计学意义,误判为无统计学意义的概率,0.05说明型误判可能性小于百分之五。一般取0.1或0.05。1-值称检验效能,又称把握度,表示实验有显著意义时,有90或95的把握可以检验出来。,2、定量数据的统
21、计分析,定量数据一般指连续的数据。如温度、重量、身高、血压等。但有些不连续的数据(即离散型数据)的数值范围较大,通常也作为定量数据。如脉搏次数、呼吸次数等。,1)定量数据的统计指标A、表达定量数据集中位置的指标,用以描述观察值的平均水平,如算术均数、几何均数、中位数等。a、算术均数:适合于均匀分布的小样本数据或近似正态分布的大样本数据。b、几何均数:适合于观测值的变化成倍数关系的数据。c、中位数:不受个别特大值或特小值的影响,比较稳定,适合各种类型的数据,尤其适合于大样本偏态分布的数据。,B、表达定量数据变异的指标,又称离散指标,用以描述观测值间参差不齐的程度,即离散度、变异度,如极差、标准差
22、、变异系数、四分位数间距等。极差:适合于任何分布,计算简便,但易受极端数影响,结果不稳定,只能用于粗略分析和小样本数据。四分位数间距:不受极端数影响,结果较稳定,适合于任何分布,尤其适合于大样本偏态分布。,标准差(Standard Deviation,SD):适合于均匀分布或近似正态分布,大样本、小样本均可。变异系数:用于变异程度的比较。标准误(Standard Error,SE):,2)定量数据统计方法的选择满足以下条件:正态分布方差齐性(两组或多组总体方差相等)选择参数检验:t检验、U检验、方差分析(亦称F检验)不满足,可选用非参数检验:符号检验、秩和检验,参数检验的选择:根据实验因素的个
23、数和水平数单因素、二水平:t检验(含量大是用U检验)单因素、k水平(k3):F检验多因素:F检验注意:根据不同的实验设计类型选择相应的分析模型。,(1)t检验(t-test):适用于呈正态分布的数据。配对t检验:配对设计、同一试验对象的前后比较(自身对照)等基本条件一致的数据。两个样本均数差别的t检验t检验:适用于方差不齐时两个样本均数的检验,(2)方差分析(analysis of variance,ANOVE,F检验)用于两个或两个以上样本均数间的差异检验。单因素方差分析(one way ANOVE)均数两两比较的方差分析双因素方差分析多因素方差分析析因分析(有重复的两因素方差分析),(3)
24、非参数检验(nonparametric test)两样本的等级和检验(Wilcoxon,Mann and Whitney法),用于成组比较的数据,排列数据大小的等级,计算每组等级的和,再按等级和大小检测差异的显著性水平。H检验(Kruskal and Wallis法),用于完全随机化设计数据的统计,前提是假定抽样总体是连续的和相同的,检验其分布位置是否相同。等级相关,对于不呈正态分布、不知是否正态变化的等级数据,可采用Spearman或Kendall等级相关分析。,Excel 在描述统计中的应用,函数和数据分析工具 函数是Excel 预定义的内置公式。它可以接受被称为参数的特定数值,按函数的内
25、置语法结构进行特定计算,最后返回一定的函数运算结果。,函数的语法以函数名称开始,后面是左圆括号、以逗号隔开的参数和右圆括号。参数可以是数字、文本、形如TRUE 或FALSE 的逻辑值、数组、形如#N/A 的错误值,或单元格引用。给定的参数必须能产生有效的值。参数也可以是常量、公式或其它函数。,数据分析工具“分析工具库”只需为每一个分析工具提供必要的数据和参数,该工具就会使用适宜的统计或数学函数,在输出表格中显示相应的结果。其中的一些工具在生成输出表格时还能同时产生图表。,如果要浏览已有的分析工具,可以单击“工具”菜单中的“数据分析”命令。如果“数据分析”命令没有出现在“工具”菜单上,则必须运行
26、“安装”程序来加载“分析工具库”。安装完毕之后,必须通过“工具”菜单中的“加载宏”命令,在“加载宏”对话框中选择并启动它。,一、“描述统计”工具,(一)简介:此分析工具用于生成对输入区域中数据的单变量分析,提供数据趋中性和易变性等有关信息。,(二)操作步骤,1用鼠标点击工作表中待分析数据的任一单元格。2选择“工具”菜单的“数据分析”子菜单。3用鼠标双击数据分析工具中的“描述统计”选项。4出现“描述统计”对话框,5填写完“描述统计”对话框之后,按“确定”按扭即可。,对话框内各选项的含义:,输入区域:在此输入待分析数据区域的单元格范围。一般情况下Excel 会自动根据当前单元格确定待分析数据区域。
27、分组方式:如果需要指出输入区域中的数据是按行还是按列排列,则单击“行”或“列”。标志位于第一行/列:如果输入区域的第一行中包含标志项(变量名),则选中“标志位于第一行”复选框;如果输入区域的第一列中包含标志项,则选中“标志位于第一列”复选框;如果输入区域没有标志项,则不选任何复选框,Excel 将在输出表中生成适宜的数据标志。,均值置信度:若需要输出由样本均值推断总体均值的置信区间,则选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度。第K 个最大/小值:如果需要在输出表的某一行中包含每个区域的数据的第k 个最大/小值,则选中此复选框。然后在右侧的编辑框中,输入k 的数值。,输出区域:在
28、此框中可填写输出结果表左上角单元格地址,用于控制输出结果的存放位置。整个输出结果分为两列,左边一列包含统计标志项,右边一列包含统计值。根据所选择的“分组方式”选项的不同,Excel 将为输入表中的每一行或每一列生成一个两列的统计表。新工作表:单击此选项,可在当前工作簿中插入新工作表,并由新工作表的A1 单元格开始存放计算结果。如果需要给新工作表命名,则在右侧编辑框中键入名称。新工作簿:单击此选项,可创建一新工作簿,并在新工作簿的新工作表中存放计算结果。,汇总统计:指定输出表中生成下列统计结果,则选中此复选框。这些统计结果有:平均值、标准误差、中值、众数、标准偏差、方差、峰值、偏斜度、极差(全距
29、)最小值、最大值、总和、样本个数。,(三)结果说明:描述统计工具可生成以下统计指标,按从上到下的顺序其中包括样本的平均值(X),标准误差(S/n),组中值(Medium),众数(Mode),样本标准差(S),样本方差(S2),峰度值,偏度值,极差(Max-Min),最小值(Min),最大值(Max),样本总和,样本个数(n)和一定显著水平下总体均值的置信区间。,二“直方图”工具,(一)简介:直方图工具,用于在给定工作表中数据单元格区域和接收区间的情况下,计算数据的个别和累积频率,可以统计有限集中某个数值元素的出现次数。例如,在一个有50 名学生的班级里,可以通过直方图确定考试成绩的分布情况,它
30、会给出考分出现在指定成绩区间的学生个数,而用户必须把存放分段区间的单元地址范围填写在在直方图工具对话框中的“接收区域”框中。,(二)操作步骤:1用鼠标点击表中待分析数据的任一单元格。2选择“工具”菜单的“数据分析”子菜单。3用鼠标双击数据分析工具中的“直方图”选项。4出现“直方图”对话框,5按需要填写完“直方图”对话框之后,按“确定”按扭即可。,“直方图”对话框内主要选项:,输入区域:在此输入待分析数据区域的单元格范围。接收区域(可选):在此输入接收区域的单元格范围,该区域应包含一组可选的用来计算频数的边界值。这些值应当按升序排列。只要存在的话,Excel 将统计在各个相邻边界直之间的数据出现
31、的次数。如果省略此处的接收区域,Excel 将在数据组的最小值和最大值之间创建一组平滑分布的接收区间。,标志:如果输入区域的第一行或第一列中包含标志项,则选中此复选框;如果输入区域没有标志项,则清除此该复选框,Excel 将在输出表中生成适宜的数据标志。输出区域:在此输入结果输出表的左上角单元格的地址。如果输出表将覆盖已有的数据,Excel 会自动确定输出区域的大小并显示信息。,柏拉图:选中此复选框,可以在输出表中同时显示按降序排列频率数据。如果此复选框被清除,Excel 将只按升序来排列数据。累积百分比:选中此复选框,可以在输出结果中添加一列累积百分比数值,并同时在直方图表中添加累积百分比折
32、线。如果清除此选项,则会省略以上结果。图表输出:选中此复选框,可以在输出表中同时生成一个嵌入式直方图表。,(三)结果说明:完整的结果通常包括三列和一个频率分布图,第一列是数值的区间范围,第二列是数值分布的频数,第三列是频数分布的累积百分比。,三、利用Excel 绘制散点图,(一)简介:散点图是观察两个变量之间关系程度最为直观的工具之一,利用Excel 的图表向导,可以非常方便的创建并且改进一个散点图,也可以在一个图表中同时显示两个以上变量之间的散点图。,(二)操作步骤:1拖动鼠标选定数值区域,不包括数据上面的标志项。2选择“插入”菜单的“图表”子菜单,进入图表向导。3选择“图表类型”为“散点图
33、”,然后单击“下一步”。4确定用于制作图表的数据区。Excel 将自动把你前面所选定的数据区的地址放入图表数据区的内。,5.单击“系列”标签,分别输入x,y 数值的范围单击“下一步”。6.填写图表标题,单击“下一步”。7.选择图表输出的位置,然后单击“完成”按扭即生成图表。,(三)结果说明:Excel 中可生成不同序列的散点图,并分为不同颜色显示。通过散点图可观察出两个变量的关系,为变量之间的建立模型作准备。,四、排位与百分比工具,(一)简介:此分析工具可以产生一个数据列表,在其中罗列给定数据集中各个数值的大小次序排位和相应的百分比排位。用来分析数据集中各数值间的相互位置关系。,(二)操作步骤
34、:1用鼠标点击表中待分析数据的任一单元格。2选择“工具”菜单的“数据分析”子菜单。3用鼠标双击数据分析工具中的“排位与百分比”选项。4填写完“排位与百分比”对话框,单击“确定”按扭即可。,(三)结果说明:输出的结果可分为四列,第一列“点”是数值原来的存放位置,第二列是相应的数值,第三列是数值的排序号,第四列是数值的百分比排位,它的计算方法是:小于该数值的数值个数/(数值总个数-1)。,Excel 在推断统计中的应用,一、t-检验:双样本等方差假设(一)简介:双样本等方差检验是在一定置信水平之下,在两个总体方差相等的假设之下,检验两个总体均值的差值等于指定平均差的假设是否成立的检验。,(二)操作
35、步骤:1.选择“工具”菜单的“数据分析”子菜单,双击“t-检验:双样本等方差假设”选项,弹出对话框。2.分别填写变量1 的区域、变量2的区域。填写假设平均差,“标志”选项,再填写显著水平,然后点击“确定”按扭。,(三)结果分析:表中分别给出了两组样本的平均值、方差和样本个数。合并方差是样本方差加权之后的平均值;Df 是假设检验的自由度,等于样本总个数减2;t 统计量是两个样本差值减去假设平均差之后再除以标准误差的结果;“P(T=t)单尾”是单尾检验的显著水平,“t 单尾临界”是单尾检验t 的临界值;“P(T=t)双尾”是双尾检验的显著水平,“t 双尾临界”是双尾检验t 的临界值。,二、t-检验
36、:双样本异方差假设与双样本等方差假设检验不同,该检验是在两个数据集的方差不等的前提假设之下进行两总体均值差额的检验,故也称作异方差t-检验。当进行分析的样本个数不同时,可使用此检验。,三、t-检验:成对双样本均值分析 此分析工具可以进行成对双样本学生氏t-检验,用来确定样本均值是否不等。此t-检验并不假设两个总体的方差是相等的。当样本中出现自然配对的观察值时,可以使用此成对检验。,四、z-检验:双样本均值分析此分析工具可以进行方差已知的双样本均值z-检验。此工具用于检验两个总体均值之间存在差异的假设。,五、单因素方差分析(一)简介单因素方差分析可用于检验两个或两个以上的总体均值相等的假设是否成
37、立。此方法是对双均值检验(如t-检验)的扩充。检验假定总体是服从正态分布的,总体方差是相等的,并且随机样本是独立的。这种工具适用于完全随机化试验的结果分析。,(二)操作步骤1.选择“工具”菜单的“数据分析”子菜单,双击“方差分析:单因素方差分析”选项,弹出单因素方差分析对话框。2.填写对话框。然后单击“确定”。,(三)结果分析:SS 列分别给出了各个分组的组间方差、组内方差以及总方差;DF 列分别给出了对应方差的自由度;MS列是平均值方差,由SS 除以DF 得到,它是总体方差的两个估计值。F列是F 统计量的计算结果,如果各个总体均值相等的假设成立的化,它应该服从F 分布,即近似为1,它是最终的
38、计算结果,通过将它与一定置信水平下的F 临界值F crit 比较,可以判断均值相等的假设是否成立。P-value 列,是单尾概率值,表明如果各个总体均值相等的假设成立的化,得到如上样本结果的概率值。,六、无重复双因素方差分析无重复双因素方差分析可用于分析两个因素对试验对象的影响情况。检验假定总体是服从正态分布的,总体方差是相等的,并且随机样本是独立的。这种工具适用于无重复试验的结果分析。,七、可重复双因素方差分析可重复双因素方差分析可用于分析两个因素对试验对象的影响情况。检验假定总体是服从正态分布的,总体方差是相等的,并且随机样本是独立的。这种工具适用于有重复试验的结果分析。,3、定性资料的统
39、计分析,统计资料中按品质和属性分组计数所得的资料称为定性资料。由定性变量与频数两部分组成。定性变量分为名义变量(如血型分为O、A、B、AB四型)和等级变量(如治疗结果分为治愈、显效、好转、死亡4档)。,1)定性资料的统计指标定性资料的统计分析,通常计算相对数。相对数是两个有联系的指标之比。分为率、构成比、相对比等。,(1)率(rate):又称频率指标或强度指标,说明某种现象发生的频率或强度。率某现象实际发生的例数/某现象观察总例数(2)构成比(proportion):表示事物或现象内部各构成部分的比重,通常以100作为比例基数,故常称为百分比。构成比事物内部某一构成部分的观察单位数/事物内部各
40、组成部分的观察单位总数(3)相对比(relative ratio):简称比(ratio),表示两个同类指标之比,常以倍数或百分数表示。相对比甲指标/乙指标,注意事项,计算率时,分母不能太小。分母越大,率越稳定,意义也较大。例数较少时,最好以绝对数表示。构成比和率是两个不同相对数,用途不一样,不能混淆。当各组例数不相等时,计算几个率的平均率时,应以总发生例数/总可能例数。用率作比较时应注意其可比性。对于内部构成不同的两个率,应作标准化处理,才能进行比较,这称为率的标准化,经标准化后的率称为标准化率。,(卡方)检验,检验是一种用途较广的计数资料的假设检验方法,属于非参数检验的范畴,主要是比较两个及
41、两个以上样本率(构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。,检验的应用,检验两个样本率之间差别的显著性;检验多个样本率或构成比之间差别的显著性;检验两个双向无序分类变量是否存在关联;配对计数资料的比较。,一、两独立样本率检验(一)两独立样本率资料的四格表形式,例1 为研究肿瘤标志物癌胚抗原(CEA)对肺癌的诊断价值,随机抽取72例确诊为肺癌的患者为肺癌组,114例接受健康体检的非肺癌患者为对照组。用CEA对其进行检测,结果呈阳性反应者病例组中33例,对照组中10例。问两组人群的CEA阳性率有无差异?,表1 CEA对两组人群的诊断结果
42、*,*括号内为理论频数。,本例资料经整理成表1形式,即有两个处理组,每个处理组的例数由发生数和未发生数两部分组成。表内有33、39、10、104 四个基本数据,其余数据均由此四个数据推算出来的,故称四格表资料。,(二)检验的基本思想,表2 四格表资料的基本形式,基本思想:可通过 检验的基本公式来理解。,式中,A为实际频数(actual frequency),T为理论频数(theoretical frequency)。,理论频数 是根据检验设,且用合并率 来估计而定的。,理论频数由下式求得:,式中,TRC 为第R 行C 列的理论频数 nR 为相应的行合计 nC 为相应的列合计,检验统计量 值反映
43、了实际频数与理论频数的吻合程度。若检验假设H0:1=2成立,四个格子的实际频数A 与理论频数T 相差不应该很大,即统计量 不应该很大。如果 值很大,即相对应的P 值很小,若,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即12。,由公式(7-1)还可以看出:值的大小还取决于 个数的多少(严格地说是自由度的大小)。由于各 皆是正值,故自由度愈大,值也会愈大;所以只有考虑了自由度的影响,值才能正确地反映实际频数A和理论频数T 的吻合程度。检验的自由度取决于可以自由取值的格子数目,而不是样本含量n。四格表资料只有两行两列,=1,即在周边
44、合计数固定的情况下,4个基本数据当中只有一个可以自由取值。,(1)建立检验假设,确定检验水平。H0:1=2H1:12=0.05。,(三)假设检验,(2)求检验统计量值,四格表资料检验的专用公式,(四)四格表资料检验的校正公式,分布是一连续型分布,而四格表资料属离散型分布,由此计算得的 统计量的抽样分布亦呈离散性质。为改善 统计量分布的连续性,则进行连续性校正。,四格表资料 检验公式选择条件:,,不校正的理论或专用公式;,校正公式;,直接计算概率(Fisher)。,连续性校正仅用于 的四格表资料,当 时,一般不作校正。,例2 将116例癫痫患者随机分为两组,一组70例接受常规加高压氧治疗(高压氧组),另一组46例接受常规治疗(常规组),治疗结果见表7-3。问两种疗法的有效率有无差别?,