收藏 分享(赏)

R语言与大数据编程实战.pdf

上传人:g****t 文档编号:2351309 上传时间:2023-05-08 格式:PDF 页数:320 大小:8.90MB
下载 相关 举报
R语言与大数据编程实战.pdf_第1页
第1页 / 共320页
R语言与大数据编程实战.pdf_第2页
第2页 / 共320页
R语言与大数据编程实战.pdf_第3页
第3页 / 共320页
R语言与大数据编程实战.pdf_第4页
第4页 / 共320页
R语言与大数据编程实战.pdf_第5页
第5页 / 共320页
R语言与大数据编程实战.pdf_第6页
第6页 / 共320页
亲,该文档总共320页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、R语言与大数据编程实战李倩星 编著高级大数据人才培养丛书内 容 简 介本书是一本 R 语言入门读物,它旨在帮助读者迅速构建起与数据分析相关的知识体系,并学习如何使用 R 软件实现数据分析方法。无论有无深厚的编程基础或数学基础,本书都能帮助读者成长为一名合格的数据分析师。本书全面介绍了来自统计分析、机器学习、人工智能等领域的多种数据分析算法,在讲解与之相关的R代码时,还讨论了这些算法的原理、优缺点与适用背景。本书按照由易到难的原则组织章节主题,读者将获得最好的阅读体验。通过阅读本书,读者将对R语言在数据分析领域的应用有一个全面的认识。这种认识不被特定行业所局限,任何行业的读者都能利用本书介绍的数

2、据分析方法解决本行业的数据分析问题。未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。版权所有,侵权必究。图书在版编目(CIP)数据R 语言与大数据编程实战/李倩星编著.北京:电子工业出版社,2017.9(高级大数据人才培养丛书)ISBN 978-7-121-32634-9.R .李 .程序语言程序设计.TP312中国版本图书馆 CIP 数据核字(2017)第 215708 号策划编辑:李 冰责任编辑:李 冰特约编辑:彭 瑛 赵海军等印刷:三河市华成印务有限公司装订:三河市华成印务有限公司出版发行:电子工业出版社北京市海淀区万寿路173信箱 邮编:100036开本:78710921/16

3、 印张:20 字数:512千字版次:2017年9月第1版印次:2017年9月第1次印刷定 价:59.00元凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888,88258888。质量投诉请发邮件至,盗版侵权举报请发邮件至。本书咨询联系方式:。前 言R 语言是如今最热门的编程语言之一,它由统计学家开发,在解决数据分析问题时具有先天优势。R 语言是一门新兴的语言,掌握它,就是掌握了一门高效的数据分析软件。随着大数据概念的普及,R 语言能够实现的功能越来越丰富,越来越多的数据分析从业人员产生了学习 R 语言的需求。本书迎合

4、时代潮流,讲解了大数据时代下 R 语言渗透最广泛的几个领域,全面介绍了如何使用 R 语言完成数据挖掘工作。对 R 语言编程人员来说,本书是一本不可或缺的工具书。本书特色1.通俗易懂、实用性强,适合各层次读者学习本书对读者的数学基础或编程基础不做任何要求。在讲解知识点时,本书采用了平实的语言,对每个疑难点都加以详细解释。此外,本书以实用为主旨,秉承“看得懂、学得会、用得上”的编写原则,精心选取了流行于行业前沿的 18 个主题,不仅通俗易懂,还确保读者所学的知识具有实际应用价值。通过阅读本书,读者都能迅速掌握 R 语言的编程技巧及相关的数据分析知识,并在实际工作中立刻应用它们。2.条理清晰、结构巧

5、妙,全面盘点数据分析常用算法数据分析是一个涉及多领域的交叉学科,R 软件的触角同样也能伸展到多个领域。本书选取了统计分析、机器学习、人工智能等多个学科的流行算法作为主题,讲解了如何使用 R 语言实现它们。这些算法有些偏重数学思维,有些偏重编程技巧,本书主要遵循由易到难的顺序排列主题,并尽量把起源于同一学科的算法放在一起。读者可以按照顺序阅读本书,也可以优先选择感兴趣的部分。此外,本书还穿插介绍了与 R 软件相关的一些其他编程主题,这些主题共同形成知识网络,帮助读者迅速成长为能够独当一面的数据科学家。3.知识点丰富、可拓展性强,满足读者的多重需求本书涉及多个学科,全面介绍了 R 软件能够实现的多

6、种算法,满足了读者的三大需求:首先,使用通俗易懂的语言介绍 R 软件,帮助读者实现零基础入门;其次,囊括多种数据分析算法,带领读者全面认识 R 软件的强大之处,帮助读者成长为合格的数据科学家;最后,本书具备较强的可拓展性,从事任何行业的读者都能够从本书中获取适合其行业的知识。本书还给出了 R 语言进阶的线索,无论想向哪一方面进阶,本书都能为读者打造最坚实的基础。IVR 语言与大数据编程实战本书内容及体系结构本书总共 18 章,分别为 R 的基本介绍、原始数据的探索与预处理、R 的数据可视化、R 中参数的估计和检验、R 中的方差分析、R 中的相关分析和回归分析、更高级的数据可视化、R 中的聚类分

7、析和判别分析、R 中的主成分分析和因子分析、R 中的广义线性回归模型、R 中的时间序列模型、R 中的最优化问题、使用 R 绘制地理信息图形、使用R 构建支持向量机、实现更高效的流程控制和高级循环、R 代码的调试与优化、构建电影评分预测模型、贝叶斯垃圾邮件过滤器模型。这 18 章进一步又分为 5 个部分。第一部分为本书的第 16 章。其中前 3 章展示了 R 软件的一些入门功能,如数据预处理和数据可视化等,后 3 章则介绍了三种基础的统计分析方法,即参数的估计和检验、方差分析、相关分析、回归分析。这 6 章围绕初级的统计方法展开,是数据分析师必备的基本知识。第二部分为本书的第 711 章,这 5

8、 章介绍了更高级的统计方法。其中,第 7 章为第 3 章的延伸,介绍了数据可视化的高级方法,第 811 章则介绍了 6 种高级统计分析方法,这部分的内容与第一部分互为补充。第三部分为本书的第 1214 章,这部分内容围绕机器学习展开。第 12 章的主题为最优化,是机器学习的基本理论。第 13 章介绍了如何使用矢量化的思想绘制地图。第14 章则介绍了支持向量机,它是最典型的机器学习算法之一。这部分讲解了更高深的 R语言编程技巧,讨论了一些 R 软件能够解决的高难度问题。第 15、16 章可视为本书的第四部分。这两章围绕如何优化 R 代码展开,系统地讨论了如何写出错误较少的、运行速度较快的代码。这

9、部分内容帮助读者建立良好的编程习惯,以及与其他 R 用户更好地协同工作。第 17、18 章则为本书的最后一部分,这两章分别讨论了一个完整的数据挖掘项目。其中电影评分预测的案例着重于表现数据挖掘的完整流程,包括繁复的数据预处理与反复的模型比较等工作;垃圾邮件过滤的案例则引出 R 软件能够处理的另一个主题文本分析。上述划分方法仅为一个参考,本书的 18 章既互相联系又彼此独立,读者可按照上述划分方法阅读本书,也可优先阅读某些章节,如将第 3、7、13 章等与数据可视化相关的三个章节放在一起阅读。本书读者对象 y 想要了解 R 语言的数据分析从业人员。y 统计学、金融学、计算机技术与科学等专业的学生

10、。y 想要提高 R 语言编程能力的数据分析师。y 希望系统学习统计分析方法的从业人员。y 其他对 R 语言有兴趣的各类人员。目 录第1章 R 的基本介绍.11.1 强大的 R.11.2 R 语言在大数据中的应用.21.2.1 R 语言用户行为分析.21.2.2 R 语言处理金融大数据.31.2.3 R 语言天气数据可视化.41.2.4 R 语言医疗大数据分析.41.3 R 的安装与启动.51.3.1 安装并启动 R.61.3.2 安装并启动一个 IDE.71.4 R 的向量、矩阵和数组.81.4.1 向量的操作方法和固有属性.81.4.2 矩阵的操作和运算.101.4.3 数组中的维度函数.1

11、31.5 R 的列表和数据框.141.5.1 列表的特性和编辑方法.141.5.2 数据框的创建和基本操作.171.6 R 数据文件的载入和载出.191.6.1 结构化纯文本文件的读取和输出.191.6.2 其他文件的读取和输出.221.7 向 R 中安装包.23第2章 原始数据的探索与预处理.262.1 度量数据集的集中程度.262.2 度量数据集的分散程度.272.2.1 极值、方差和标准差.272.2.2 标准误和偏度系数、峰度系数.29VIR 语言与大数据编程实战2.3 创建一个数值摘要表.302.4 异常值的观测与说明.322.4.1 利用箱线图观测异常值并处理.322.4.2 异常

12、值检测的其他情况和说明.342.5 缺失值的填补与处理.352.5.1 删除缺失值或对其进行简单填补.362.5.2 按照相关性对空缺值进行填补.38第3章 R 的数据可视化.403.1 plot()函数和常用的图形参数.403.1.1 设置 plot()函数中的参数.403.1.2 修改散点图的坐标并加入标注.433.2 经典的基础图形及用途.453.2.1 线图.453.2.2 直方图.493.2.3 箱线图和茎叶图.523.3 将图形组合起来.553.4 更多的高水平作图函数.573.5 更多的常用作图命令.59第4章 R 中参数的估计和检验.624.1 使用 R 进行点估计和区间估计.

13、624.1.1 简单的点估计和区间估计.624.1.2 估计单侧置信区间.654.2 与正态总体有关的参数检验.684.3 列联表与独立性检验.714.4 几种检验数据分布的函数.724.5 对非正态总体的区间估计和检验.754.5.1 非正态总体的区间估计.754.5.2 非参数检验中的符号检验.764.5.3 非参数检验中的秩检验.78VII 目 录 第5章 R 中的方差分析.805.1 方差分析模型的建立.805.2 单因素方差分析.815.2.1 单因素方差分析的数学思想与模型.815.2.2 检验样本是否满足方差分析的假设条件.825.2.3 构建单因素方差分析模型.845.3 多因

14、素方差分析.875.3.1 多因素方差分析的数学思想与模型.875.3.2 不考虑交互作用的双因素方差分析.885.3.3 考虑交互作用的双因素方差分析.895.4 秩检验和协方差分析.915.4.1 对控制变量应用秩检验方法.915.4.2 协方差分析的假设与应用.92第6章 R 中的相关分析和回归分析.946.1 多种相关系数的度量和分析.946.1.1 简单相关系数的计算和检验.946.1.2 散布矩阵图和偏相关系数.966.1.3 典型相关分析.986.2 线性回归分析及其常规参数.996.2.1 对数据进行预处理.1006.2.2 构建第一个回归模型.1016.2.3 修正方程并检验

15、残差.1026.3 使用逐步回归筛选自变量.1046.3.1 逐步回归的思想与分类.1046.3.2 构建逐步回归模型.1056.4 哑变量和逻辑回归.1076.4.1 哑变量和逻辑回归的思想.1076.4.2 向线性回归模型中纳入哑变量.108VIIIR 语言与大数据编程实战第7章 更高级的数据可视化.1107.1 基础图形的拓展与延伸.1107.1.1 绘制分类散点图并添加图标.1107.1.2 绘制含多种类别的密度分布图.1127.1.3 复合条形图和堆栈条形图.1147.2 有关多元分布函数的特殊图形.1177.2.1 星图和脸谱图.1177.2.2 轮廓图.1207.2.3 调和曲线

16、图.1227.3 建立最简单的 3D 图形.1237.4 如何让图形更美观.1257.5 更多的绘图包和系统.128第8章 R 中的聚类分析和判别分析.1298.1 几种聚类分析的异同.1298.2 使用 R 实现 KNN 聚类.1308.2.1 KNN 算法的思想和模型.1308.2.2 使用 R 实现 KNN 聚类.1318.3 使用 R 实现系统聚类.1338.3.1 系统聚类的思想和模型.1338.3.2 使用 R 实现系统聚类.1348.4 使用 R 实现快速聚类.1368.4.1 快速聚类的思想和模型.1368.4.2 使用 R 实现快速聚类.1378.5 几种判别分析模型综述.1408.5.1 距离判别模型.1408.5.2 Fisher 判别模型.142第9章 R 中的主成分分析和因子分析.1459.1 主成分分析的实现与应用.1459.1.1 主成分分析的模型假设和数据处理.1459.1.2 构造一个主成分分析模型.147IX9.1.3 计算主成分的综合得分.1499.2 因子分析的初次构建与完善.1509.2.1 构造一个简单的因子分析模型.1509.2.2 计算因

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教育教学 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2