1、 “十二五”普通高等教育本科国家级规划教材 浙江省社科规划课题成果 应用回归分析(R 语言版)何晓群 编著 内 容 简 介 回归分析是统计学中一个非常重要的分支,在自然科学、管理及社会经济等领域有着非常广泛的应用。本书是针对统计学专业和财经管理类专业教学的需要而编写的。本书写作的指导思想是在不失严谨的前提下,明显不同于纯数理类教材,努力突出实际案例的应用和统计思想的渗透。由于 R 语言已风靡全球,在统计方法的应用中运用 R 语言也被越来越多的中国学者所追捧,因此本书结合 R 软件全面系统地介绍回归分析的实用方法,尽量结合中国社会经济、自然科学等领域的研究实例,把回归分析的方法与实际应用结合起来
2、,注重定性分析与定量分析的紧密结合,努力把同行以及我们在实践中应用回归分析的经验和体会融入其中。本书既可作为统计学、应用统计学和经济统计学三个本科专业的回归分析课程教材,还可作为非统计专业研究生现代统计分析方法与应用及定量分析与建模课程的教材,同时也适合有意学习 R 语言和回归建模技术的实际工作者阅读和参考。未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。版权所有,侵权必究。图书在版编目(CIP)数据 应用回归分析:R 语言版/何晓群编著.北京:电子工业出版社,2017.7 ISBN 978-7-121-31652-4 I应 II何 III回归分析高等学校教材 IVO212.1 中国版
3、本图书馆 CIP 数据核字(2017)第 122203 号 策划编辑:王志宇 责任编辑:王志宇 文字编辑:王晓庆 印 刷:装 订:出版发行:电子工业出版社 北京市海淀区万寿路 173 信箱 邮编:100036 开 本:7871 092 1/16 印张:17.75 字数:400 千字 插页:1 版 次:2017 年 7 月第 1 版 印 次:2017 年 7 月第 1 次印刷 定 价:42.00 元 凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888,88258888。质量投诉请发邮件至 ,盗版侵权举报请发邮件至 。
4、本书咨询联系方式:(010)88254523,。前 言 回归分析是统计学中一个非常重要的分支,在自然科学、管理科学和社会经济等领域有着非常广泛的应用。本书是针对统计学专业和财经管理类专业教学的需要而编写的。本书写作的指导思想是在不失严谨的前提下,明显不同于纯数理类教材,努力突出实际案例的应用和统计思想的渗透,结合 R 软件全面系统地介绍回归分析的使用方法,尽量结合中国社会经济、自然科学等领域的研究实例,把回归分析的方法与实际应用结合起来,注重定性分析与定量分析的紧密结合,努力把同行以及我们在实践中应用回归分析的经验和体会融入其中。全书分为 10 章。第 1 章对回归分析的研究内容和建模过程给出
5、综述性介绍;第 2、3 章详细介绍了一元和多元线性回归的参数估计、显著性检验及其应用;第 4 章对违背回归模型基本假设的异方差、自相关和异常值等问题给出了诊断和处理方法;第 5章介绍了回归变量选择与逐步回归方法;第 6 章就多重共线性的产生背景、诊断方法、处理方法等方面结合实际经济问题进行了讨论;第 7 章岭回归估计是解决共线性问题的一种非常实用的方法;第 8 章介绍了主成分回归与偏最小二乘;第 9 章介绍了可化为线性回归的曲线回归、多项式回归,以及不能线性化的非线性回归模型的计算;第10 章分别介绍了自变量中含定性变量和因变量是定性变量的回归问题,以及因变量是多类别和有序变量的回归问题。本书
6、作为回归分析的应用性教材,讲述的重点是结合 R 语言软件实现回归分析中的各种方法,比较各种方法的适用条件,并解释分析结果。为了保持教材的完整性,对一些基本的公式和定理给出了推导和证明,对有些基本的理论及性质也做了必要的说明。书后习题用 R 语言来完成,为了节省篇幅本书只给出习题答案的简要内容,详细答案内容及有关 R 代码我们放在中国人民大学六西格玛质量管理研究中心网站供需求者下载(www.ruc-)。对于统计学专业的本科生可以全面系统地讲述本教材的内容;对非统计学专业的本科生应该舍弃其中理论性质的内容;对非统计学专业的研究生可以根据具体情况选择讲授其中的内容。根据我们的教学实践,本书讲授 51
7、 课时较为合适,若有多媒体设备的配合,教学将会更为方便和有效。应用回归分析(R 语言版)IV 我的博士研究生刘赛可、王蕾、夏利宇为本书编写做了全面的上机实践。本书的大部分例题是我们多年教学和科研工作的积累,部分实例为体现其典型性引用了他人著作。在此谨向对本书出版提供帮助的师长和朋友表示衷心的感谢。由于水平所限,书中难免有不足之处,尤其是在一些应用研究的体会性讨论中,恐有偏颇之处,恳切希望读者批评指正。何晓群 于中国人民大学统计学院 中国人民大学应用统计科学研究中心 目 录 第 1 章 回归分析概述 1 1.1 变量间的相关关系 1 1.2“回归”思想及名称的由来 3 1.3 回归分析的主要内容
8、及其一般模型 5 1.3.1 回归分析研究的主要内容 5 1.3.2 回归模型的一般形式 5 1.4 回归模型的建立过程 7 1.4.1 根据目的设置指标变量 8 1.4.2 收集、整理数据 9 1.4.3 确定理论回归模型 10 1.4.4 模型参数的估计 11 1.4.5 模型的检验与改进 11 1.4.6 回归模型的应用 12 1.5 回归分析应用与发展简评 12 思考与练习 14 第 2 章 一元线性回归 15 2.1 一元线性回归模型 15 2.1.1 一元线性回归模型的产生背景 15 2.1.2 一元线性回归模型的数学形式 17 2.2 参数 0,1的估计 19 2.2.1 普通最
9、小二乘法 19 2.2.2 最大似然法 22 2.3 最小二乘估计的性质 24 2.3.1 线性 24 2.3.2 无偏性 24 2.3.3 01,的方差 25 2.4 回归方程的显著性检验 26 应用回归分析(R 语言版)VI 2.4.1 t 检验 27 2.4.2 F 检验 28 2.4.3 相关系数的显著性检验 28 2.4.4 用 R 软件进行计算 31 2.4.5 三种检验的关系 35 2.4.6 样本决定系数 35 2.4.7 关于 P 值的讨论 36 2.5 残差分析 38 2.5.1 残差与残差图 38 2.5.2 有关残差的性质 40 2.5.3 改进的残差 40 2.6 回
10、归系数的区间估计 41 2.7 预测和控制 42 2.7.1 单值预测 42 2.7.2 区间预测 42 2.7.3 控制问题 45 2.8 本章小结与评注 46 2.8.1 一元线性回归从建模到应用的全过程 46 2.8.2 有关回归检验的讨论 49 2.8.3 回归系数的解释 51 2.8.4 回归方程的预测 51 思考与练习 51 第 3 章 多元线性回归 55 3.1 多元线性回归模型 55 3.1.1 多元线性回归模型的一般形式 55 3.1.2 多元线性回归模型的基本假设 56 3.1.3 多元线性回归系数的解释 57 3.2 回归系数的估计 58 3.2.1 回归系数估计的普通最
11、小二乘法 58 3.2.2 回归值与残差 59 3.2.3 回归系数估计的最大似然法 61 3.2.4 实例分析 62 3.3 有关估计量的性质 64 3.4 回归方程的显著性检验 68 3.4.1 F 检验 68 目录 VII 3.4.2 t 检验 70 3.4.3 回归系数的置信区间 73 3.4.4 拟合优度 74 3.5 中心化和标准化 74 3.5.1 中心化 75 3.5.2 标准化回归系数 75 3.6 相关阵与偏相关系数 77 3.6.1 样本相关阵 77 3.6.2 偏决定系数 78 3.6.3 偏相关系数 79 3.7 本章小结与评注 82 3.7.1 多元线性回归的建模过
12、程 82 3.7.2 评注 84 思考与练习 87 第 4 章 违背基本假设的几种情况 90 4.1 异方差性产生的背景和原因 90 4.1.1 异方差性产生的原因 90 4.1.2 异方差性带来的问题 91 4.2 一元加权最小二乘估计 92 4.2.1 异方差性的诊断 92 4.2.2 一元加权最小二乘估计 96 4.2.3 寻找最优权函数 97 4.3 多元加权最小二乘估计 101 4.3.1 多元加权最小二乘法 101 4.3.2 权函数的确定方法 101 4.4 自相关性问题及其处理 103 4.4.1 自相关性产生的背景和原因 104 4.4.2 自相关性带来的问题 105 4.4
13、.3 自相关性的诊断 105 4.4.4 自相关问题的处理 109 4.4.5 自相关实例分析 110 4.5 BOX-COX 变换 115 4.6 异常值与强影响点 119 4.6.1 关于因变量 y 的异常值 119 4.6.2 关于自变量 x 的异常值对回归的影响 120 应用回归分析(R 语言版)VIII 4.6.3 异常值实例分析 121 4.7 本章小结与评注 123 4.7.1 异方差问题 123 4.7.2 自相关问题 124 4.7.3 异常值问题 125 思考与练习 125 第 5 章 自变量选择与逐步回归 129 5.1 自变量选择对估计和预测的影响 129 5.1.1
14、全模型与选模型 129 5.1.2 自变量选择对预测的影响 130 5.2 所有子集回归 131 5.2.1 所有子集的数目 131 5.2.2 自变量选择的几个准则 132 5.2.3 用R软件寻找最优子集 136 5.3 逐步回归 138 5.3.1 前进法 138 5.3.2 后退法 141 5.3.3 逐步回归法 142 5.4 本章小结与评注 145 5.4.1 逐步回归实例 145 5.4.2 评注 149 思考与练习 150 第 6 章 多重共线性的情形及其处理 153 6.1 多重共线性产生的背景和原因 153 6.2 多重共线性对回归建模的影响 154 6.3 多重共线性的诊
15、断 156 6.3.1 方差扩大因子法 157 6.3.2 特征根判定法 158 6.3.3 直观判定法 160 6.4 消除多重共线性的方法 160 6.4.1 剔除不重要的解释变量 160 6.4.2 增大样本量 163 6.4.3 回归系数的有偏估计 163 6.5 本章小结与评注 163 思考与练习 165 目录 IX 第 7 章 岭回归 166 7.1 岭回归估计的定义 166 7.1.1 普通最小二乘估计带来的问题 166 7.1.2 岭回归的定义 167 7.2 岭回归估计的性质 168 7.3 岭迹分析 169 7.4 岭参数 k 的选择 170 7.4.1 岭迹法 171 7
16、.4.2 方差扩大因子法 171 7.4.3 由残差平方和确定 k 值 172 7.5 用岭回归选择变量 172 7.6 本章小结与评注 179 思考与练习 180 第 8 章 主成分回归与偏最小二乘 182 8.1 主成分回归 182 8.1.1 主成分的基本思想 182 8.1.2 主成分的基本性质 183 8.1.3 主成分回归的实例 184 8.2 偏最小二乘 187 8.2.1 偏最小二乘的原理 187 8.2.2 偏最小二乘的算法 190 8.2.3 偏最小二乘的应用 191 8.3 本章小结与评注 194 思考与练习 196 第 9 章 非线性回归 197 9.1 可化为线性回归的曲线回归 197 9.2 多项式回归 203 9.2.1 几种常见的多项式回归模型 203 9.2.2 应用实例 204 9.3 非线性模型 206 9.3.1 非线性最小二乘 206 9.3.2 非线性回归模型的应用 207 9.3.3 其他形式的非线性回归模型 218 9.4 本章小结与评注 218 思考与练习 220 应用回归分析(R 语言版)X 第 10 章 含定性变量的回归模型 223