1、CMYCMMYCYCMYK23714-扉页.pdf 1 14-7-14 下午3:25 内 容 简 介 大数据时代,数据成为决策最为重要的参考之一,数据分析行业迈入了一个全新的阶段。R 是一款非常优秀的统计分析软件,本书侧重于使用 R 进行数据的处理、整理和分析,重点讲述了 R 的数据分析流程、算法包的使用以及相关工具的应用,同时结合大量精选的数据分析问题对 R 软件进行科学、准确和全面的介绍,以便使读者能深刻理解 R 的精髓和灵活、高效的使用技巧。通过本书,读者不仅能掌握使用 R 及相关的算法包来快速解决实际问题,而且能学会从实际问题分析入手,到利用 R 进行求解,以及对结果进行分析。本书可作
2、为计算机、互联网、机器学习、信息、数学、经济金融、管理、运筹、统计以及有关理工科专业的本科生、研究生的学习用书,也能帮助市场营销、金融、财务、人力资源管理人员及产品经理解决实际问题,还能帮助从事咨询、研究、分析行业的人士及各级管理人员提高专业水平。未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。版权所有,侵权必究。图书在版编目(CIP)数据 数据分析:R 语言实战/李诗羽,张飞,王正林编著.北京:电子工业出版社,2014.8(大数据时代的 R 语言)ISBN 978-7-121-23714-0 .数.李 张 王.统计数据统计分析程序语言程序设计.O212.1 TP312 中国版本图书馆
3、 CIP 数据核字(2014)第 147847 号 策划编辑:张月萍 责任编辑:刘 舫 印 刷:三河市鑫金马印装有限公司 装 订:三河市鑫金马印装有限公司 出版发行:电子工业出版社 北京市海淀区万寿路 173 信箱 邮编:100036 开 本:787980 1/16 印张:21.00 字数:521 千字 版 次:2014 年 8 月第 1 版 印 次:2014 年 8 月第 1 次印刷 定 价:59.00 元 凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888。质量投诉请发邮件至 ,盗版侵权举报请发邮件至 。服务热
4、线:(010)88258888。III 前 言 大数据时代,数据成为决策最为重要的参考之一,数据分析随着大数据概念的普及而日益得到重视,数据分析行业迈入了一个全新的阶段。数据分析的软件如雨后春笋般地涌现,其中 R 软件的发展备受瞩目。R 是一个免费开源软件,它提供了首屈一指的统计计算和绘图功能,尤其是大量的统计分析、数据挖掘方面的算法包,使得它成为一款优秀的、不可多得的数据分析工具软件。本书的主要目的是向读者介绍如何用 R 进行数据分析,通过大量的精选实例,循序渐进、全面系统地讲述 R 在数据分析领域的应用。全书分为 15 章,主要内容从数据分析的前期准备、基本分析及应用和综合实例这三篇展开。
5、(1)上篇 数据分析的前期准备 由第 13 章组成,首先简要介绍数据分析的原则、步骤和过程,常用工具及 R 在数据分析中的优势,然后介绍 R 中数据整理等数据预处理的基本函数及方法。这些内容是使用 R 进行数据分析的最基础内容。(2)中篇 基本分析及应用 由第 413 章组成,主要讲述数据分析的基本算法及应用,包括数据的图形描述、描述性分析、参数估计、假设检验,以及方差分析、回归分析、主成分分析、典型相关分析、判别分析、聚类分析和时间序列分析等,这些分析方法也是数据分析中使用得最多、最普遍的算法。R 中提供了丰富的、功能强大的算法包和实现函数,数据分析的初级和中级用户务必掌握。(3)下篇 综合
6、实例 由第 1415 章组成,主要结合两个大例子,综合讲述数据分析在金融数据分析和数据预测中的应用,以及如何使用 R 中的方法和工具进行应用。对于中高级的用户,可以深入学习一下。R 的特点是入门非常容易,使用也非常简单,因此本书也不需要读者具备 R 和数据挖掘的基础知识,不管是 R 初学者,还是熟练的 R 用户都能从书中找到对自己有用的内容,从而快速入门和提高。读者既可以把本书作为学习如何应用 R 的一本优秀教材,也可以作为数据分析的工具书。全书以实际问题、解决方案和对解决方案的讨论为主线来组织内容,脉络清晰,并且各章自 数据分析:R 语言实战 IV成体系。读者可以从头至尾逐章学习,也可以根据
7、自己的需要进行学习,找到自己实际问题的解决方案。本书所编的源程序,都通过了反复的调试,读者可在 网站下载,方便读者使用。本书主要由李诗羽、张飞、王正林编写,其他参与编写的人员有肖静、邹术来、夏路生、钟救元、郑曙霞、王成、刘亚文、肖绍英、王伟欣、朱桂莲、夏立德、王龙跃等。在此对所有参与编写的人员表示感谢!对关心、支持我们的读者表示感谢!由于时间仓促,作者水平和经验有限,书中错漏之处在所难免,敬请读者指正,我们的电子邮箱是:wa_。编著者 2014 年 5 月 28 日于北京 目 录 第 0 章 致敬,R!.1 致敬,肩膀!.1 致敬,时代!.3 致敬,人才!.3 致敬,R 瑟!.5 上篇 数据分
8、析的前期准备 第 1 章 数据分析导引.8 1.1 数据分析概述.8 1.1.1 数据分析的原则.8 1.1.2 数据分析的步骤.9 1.1.3 数据分析的过程.10 1.1.4 数据分析的对象.11 1.2 大数据分析.11 1.2.1 大数据分析的流程.11 1.2.2 大数据分析的基本方面.12 1.2.3 大数据分析的应用.13 1.3 数据分析常用工具.13 1.4 R 在数据分析中的优势.14 第 2 章 数据的读取与保存.16 2.1 数据读取.16 2.1.1 读取内置数据集.16 2.1.2 读取文本文件.17 2.1.3 读取固定宽度格式的文件.20 2.1.4 读取 Ex
9、cel 数据.21 2.1.5 读取数据库文件.22 2.1.6 读取网页数据.26 2.1.7 读入 R 格式的文件.28 2.1.8 从其他统计软件读入数据.28 2.2 数据保存.31 2.2.1 使用函数 cat().31 数据分析:R 语言实战 VI2.2.2 保存为文本文件.32 2.2.3 保存 R 格式文件.33 2.2.4 保存为其他类型文件.33 第 3 章 数据预处理.34 3.1 基本函数.34 3.2 数据修改.38 3.2.1 修改数据标签.38 3.2.2 行列删除.38 3.3 缺失值处理.38 3.3.1 判断缺失数据.39 3.3.2 判断缺失模式.39 3
10、.3.3 处理缺失数据.41 3.4 数据整理.44 3.4.1 数据合并.44 3.4.2 选取数据的子集.46 3.4.3 数据排序.47 3.5 长宽格式的转换.48 3.5.1 揉数据函数.48 3.5.2 揉数据的最佳伴侣.49 中篇 基本分析及应用 第 4 章 数据的图形描述.54 4.1 R 绘图概述.54 4.2 绘图区域分割.55 4.2.1 函数 par().55 4.2.2 函数 layout().56 4.2.3 函数 split.screen().57 4.3 二维图形.58 4.3.1 高级绘图函数.58 4.3.2 多元数据绘图.61 4.3.3 低级绘图函数.6
11、3 4.3.4 图形美化.64 4.3.5 交互式绘图命令.65 4.4 三维图形.67 4.5 lattice 程序包.69 4.6 ggplot2 程序包.73 4.6.1 快速绘图.74 4.6.2 分图层绘图.76 目 录 VII4.7 图形保存.84 4.8 实战实例:数据地图.84 第 5 章 数据的描述性分析.88 5.1 R 内置的分布.88 5.2 集中趋势的分析.90 5.2.1 集中趋势的测度.90 5.2.2 R 语言实现.91 5.3 离散趋势的分析.93 5.3.1 离散趋势的测度.93 5.3.2 R 语言实现.94 5.4 数据的分布分析.95 5.4.1 分布
12、情况的测度.95 5.4.2 R 语言实现.96 5.5 图形分析及 R 实现.97 5.5.1 直方图和密度函数图.97 5.5.2 QQ 图.98 5.5.3 茎叶图.100 5.5.4 箱线图.100 5.5.5 经验分布图.102 5.6 多组数据分析及 R 实现.102 5.6.1 多组数据的统计分析.102 5.6.2 多组数据的图形分析.103 第 6 章 参数估计及 R 实现.112 6.1 点估计及 R 实现.112 6.1.1 矩估计.112 6.1.2 极大似然估计.116 6.2 单正态总体的区间估计.122 6.2.1 均值的区间估计.122 6.2.2 方差2的区间
13、估计.125 6.3 两正态总体的区间估计.126 6.3.1 均值差12的区间估计.127 6.3.2 两方差比2212/的区间估计.130 6.4 关于比率的区间估计.131 第 7 章 假设检验及 R 实现.134 7.1 假设检验概述.134 7.1.1 理论依据.135 7.1.2 检验步骤.135 数据分析:R 语言实战 VIII7.1.3 两类错误.136 7.2 单正态总体的检验.137 7.2.1 均值的检验.138 7.2.2 方差2的检验.141 7.3 两正态总体的检验.142 7.3.1 均值差12的检验.143 7.3.2 成对数据的 t 检验.146 7.3.3
14、两总体方差的检验.147 7.4 比率的检验.148 7.4.1 比率的二项分布检验.148 7.4.2 比率的近似检验.149 7.5 非参数的检验.149 7.5.1 总体分布的2检验.150 7.5.2 Kolmogrov-Smirnov 检验.153 第 8 章 方差分析及 R 实现.157 8.1 单因素方差分析及 R 实现.157 8.1.1 基本假设的检验.157 8.1.2 单因素方差分析.160 8.1.3 多重 t 检验.164 8.1.4 Kruskal-Wallis 秩和检验.166 8.2 双因素方差分析及 R 实现.168 8.2.1 无交互作用的分析.169 8.
15、2.2 有交互作用的分析.172 8.3 协方差分析及 R 实现.176 第 9 章 回归分析及 R 实现.180 9.1 一元线性回归.180 9.1.1 模型理论.180 9.1.2 显著性检验.181 9.1.3 R 语言实现.181 9.2 多元线性回归.187 9.2.1 模型理论.187 9.2.2 显著性检验.188 9.2.3 R 语言实现.189 9.2.4 逐步回归.192 9.3 回归诊断及 R 实现.194 9.3.1 残差诊断.195 9.3.2 影响分析.198 9.3.3 多重共线性诊断.201 目 录 IX9.4 岭回归及 R 实现.203 9.5 广义线性模型
16、.206 9.5.1 模型理论.206 9.5.2 R 语言实现.207 第 10 章 主成分分析与因子分析.211 10.1 主成分分析.211 10.1.1 理论基础.211 10.1.2 R 语言实现.215 10.2 因子分析.221 10.2.1 理论模型.221 10.2.2 因子载荷矩阵的估计方法.223 10.2.3 R 语言实现.225 第 11 章 典型相关分析和对应分析.230 11.1 典型相关分析.230 11.1.1 理论基础.230 11.1.2 典型相关分析的应用.232 11.1.3 R 语言实现.233 11.2 对应分析.236 11.2.1 理论基础.236 11.2.2 对应分析的步骤.237 11.2.3 R 语言实现.238 第 12 章 判别分析和聚类分析.242 12.1 判别分析及 R 实现.242 12.1.1 距离判别法.243 12.1.2 距离判别法的 R 实现.244 12.1.3 Fisher 判别法.247 12.1.4 Fisher 判别法的 R 实现.248 12.1.5 贝叶斯判别法.251 12.1.6 贝叶斯判