2023年统计分析学习总结.docx

资源描述

1、统计分析学习总结经过四周的课程主要学习了以下几种分析方法： 1.方差分析方差分析（analysisofvariance，简称anova），又称变异数分析或f检验，是r.a.fisher创造的，用于两个及两个以上样本均数差异的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。作用。一个复杂的事物，其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素，各因素之间的交

2、互作用，以及显著影响因素的最正确水平等。方差分析是在可比较的数组中，把数据间的总的“变差按各指定的变差来源进行分解的一种技术。对变差的度量，采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的局部离差平方和，这是一个很重要的思想。经过方差分析假设拒绝了检验假设，只能说明多个样本总体均值不相等或不全相等。假设要得到各组均值间更详细的信息，应在方差分析的根底上进行多个样本均值的两两比较。（1）多个样本均值间两两比较多个样本均值间两两比较常用q检验的方法，即newman-kueuls法，其根本步骤为：建立检验假设-样本均值排序-计算q值-查q界值表判断结果。（2）多个实验组

3、与一个对照组均值间两两比较多个实验组与一个对照组均值间两两比较，假设目的是减小第ii类错误，最好选用最小显著差法（lsd法）；假设目的是减小第i类错误，最好选用新复极差法，前者查t界值表，后者查q界值表。折叠分析方法根据资料设计类型的不同，有以下两种方差分析的方法： 1、对成组设计的多个样本均值比较，应采用完全随机设计的方差分析，即单因素方差分析。 2、对随机区组设计的多个样本均值比较，应采用配伍组设计的方差分析，即两因素方差分析。折叠两类方差分析的异同两类方差分析的根本步骤相同，只是变异的分解方式不同，对成组设计的资料，总变异分解为组内变异和组间变异（随机误差），即：ss总=ss组间

4、+ss组内，而对配伍组设计的资料，总变异除了分解为处理组变异和随机误差外还包括配伍组变异，即：ss总=ss处理+ss配伍+ss误差。折叠根本步骤整个方差分析的根本步骤如下： 1、建立检验假设； 1h0：多个样本总体均值相等； h1。多个样本总体均值不相等或不全等。检验水准为0.05。 2、计算检验统计量f值； 3、确定p值并作出推断结果。 2.回归分析法定义所谓回归分析法，是在掌握大量观察数据的根底上，利用数理统计方法建立因变量与自变量之间的回归关系函数表达式（称回归方程式）。回归分析法不能用于分析与评价工程工程风险。分类回归分析中，当研究的因果关系只涉及因变量和一个自变量时，叫做一元

5、回归分析；当研究的因果关系涉及因变量和两个或两个以上自变量时，叫做多元回归分析。根据自变量的个数，可以是一元回归，也可以是多元回归。此外，回归分析中，又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的，分为线性回归分析和非线性回归分析。根据所研究问题的性质，可以是线性回归，也可以是非线性回归。通常线性回归分析法是最根本的分析方法，遇到非线性回归问题可以借助数学手段化为线性回归问题处理。回归分析法预测是利用回归分析方法，根据一个或一组自变量的变动情况预测与其有相关关系的某随机变量的未来值。进行回归分析需要建立描述变量间相关关系的回归方程。应用社会经济现象之间的相关关系往往

6、难以用确定性的函数关系来描述，它们大多是随机性的，要通过统计观察才能找出其中规律。回归分析是利用统计学原理描述随机变量间相关关系的一种重要方法。在物流的计算中，回归分析法的公式如下：y=a+bxb=xynxy/xsup2n（x）sup2;a=ybx/n 3.主成分分析和因子分析 principalcomponentanalysis（pca）主成分分析法是一种数学变换的方法，它把给定的一组相关变量通过线性变换转成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变，使第一变 2量具有最大的方差，称为第一主成分，第二变量的方差次大，并且和第一变量不相关，称

7、为第二主成分。依次类推，i个变量就有i个主成分。其中li为p维正交化向量（lixli=1），zi之间互不相关且按照方差由大到小排列，那么称zi为x的第i个主成分。设x的协方差矩阵为，那么必为半正定对称矩阵，求特征值i（按从大到小排序）及其特征向量，可以证明，i所对应的正交化特征向量，即为第i个主成分zi所对应的系数向量li，而zi的方差奉献率定义为i/j，通常要求提取的主成分的数量k满足k/j0.85。主成分分析主要是一种探索性的技术，在分析者进行多元数据分析之前，用他来分析数据，让自己对数据有一个大致的了解，这是非常有必要的。主成分分析一般很少单独使用：a、了解数据。（screening

8、thedata），b、和clusteranalysis（聚类分析）一起使用，c、和判别分析一起使用，比方当变量很多，个案数不多，直接使用判别分析可能无解，这时候可以使用主成分对变量简化（reducedimensionality），d、在多元回归中，主成分分析可以帮助判断是否存在共线性（条件指数），还可以用来处理共线性。 1、因子分析中是把变量表示成各因子的线性组合，而主成分分析中那么是把主成分表示成各变量的线性组合。 2、主成分分析的重点在于解释各变量的总方差，而因子分析那么把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设（assumptions），因子分析那么需要一些假设。因

9、子分析的假设包括：各个共同因子之间不相关，特殊因子（specificfactor）之间也不相关，共同因子和特殊因子之间也不相关。 4、主成分分析中，当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候，主成分一般是独特的;而因子分析中因子不是独特的，可以旋转得到不同的因子。 5、在因子分析中，因子个数需要分析者指定（spss根据一定的条件自动设定，只要是特征值大于1的因子进入分析），而指定的因子数量不同而结果不同。在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分。和主成分分析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势。大致说来，当需要寻找潜在的因子，并对

10、这些因子进行解释的时候，更加倾向于使用因子分析，并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，那么可以使用主成分分析。当然，这种情况也可以使用因子得分做到。所以这种区分不是绝对的。在算法上，主成分分析和因子分析很类似，不过在因子分析中所采用的协方差矩阵的对角元素不再是变量的方差，而是和变量对应的共同度（变量方差中被各因子所解释的局部）。 4.聚类分析依据研究对象（样品或指标）的特征，对其进行分类的方法，减少研究对象的数目。各类事物缺乏可靠的历史资料，无法确定共有多少类别，目的是将性质相近事物归入一类。各指标之间

11、具有一定的相关关系。聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。聚类分析也叫分类分析（classificationanalysis）或数值分类（numericaltaxonomy） 3变量类型：定类变量、定量（离散和连续）变量聚类方法 1，层次聚类（hierarchicalclustering）合并法、分解法、树状图2.非层次聚类划分聚类、谱聚类分析步骤：定义问题与选择分类变量；聚类方法；确定群组数目；聚类结果评估；结果的描述、解释 5典型相关分析和对应分析典型相关分析（canonicalcorrelationanalys

12、is）就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的根本原理是：为了从总体上把握两组指标之间的相关关系，分别在两组变量中提取有代表性的两个综合变量u1和v1（分别为两个变量组中各变量的线性组合），利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。对应分析（correspondenceanalysis）也称关联分析、r-q型因子分析，是近年新开展起来的一种多元相依变量统计分析技术，通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。主要应用在市场细分、产品定位、地

13、质研究以及计算机工程等领域中。原因在于，它是一种视觉化的数据分析方法，它能够将几组看不出任何联系的数据，通过视觉上可以接受的定位图展现出来。 6.判别分析和时间序列分析判别分析又称分辨法，是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其根本原理是按照一定的判别准那么，建立一个或多个判别函数，用研究对象的大量资料确定判别函数中的待定系数，并计算判别指标。据此即可确定某一样本属于何类。当得到一个新的样品数据，要确定该样品属于类型中哪一类，这类问题属于判别分析问题。时间序列分析（timeseriesanalysis）是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法，研究随机数据序列所遵从的统计规律，以用于解决实际问题。它包括一般统计分析（如自相关分析，谱分析等），统计模型的建立与推断，以及关于时间序列的最优预测、控制与滤波等内容。经典的统计分析都假定数据序列具有独立性，而时间序列分析那么侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析，所以又可看作是随机过程统计的一个组成局部。例如，记录了某地区第一个月，第二个月，第n个月的降雨量，利用时间序列分析方法，可以对未来各月的雨量进行预报。 4 第8页共8页

展开阅读全文