1、前言Apache Hadoop是一类流行的大数据处理平台,并可与大多数大数据工具集成,以构建功能强大的数据分析方案。本书将围绕这一点对相关软件展开讨论,同时辅以大量的操作实例。在本书阅读过程中,读者将会系统学习HDFS、MapReduce、YARN方面的知识,以及如何实现快速、高效的大数据处理方案。此外,本书还将Hadoop与其他开源工具集成,例如Python和R语言,进而分析和可视化数据,同时针对大数据进行统计计算。一旦读者掌握了这些内容,即可尝试在Apache Spark和Apache Flink的基础上应用Hadoop,最终实现实时数据分析和流式处理。除此之外,本书还将讨论如何在云端和端
2、到端管道上利用Hadoop构建数据分析方案,并通过操作实例执行大数据分析任务。在阅读完本书后,读者将具备基于Hadoop生态系统的分析能力,同时可构建强大的解决方案执行大数据分析,并拥有自己的技术观点。适用读者如果读者希望使用Hadoop3的强大功能为企业或业务构建高性能的分析解决方案,或者您是一名大数据分析新手,那么本书将十分适合于您。另外,本书需要读者具备Jav编程方面的基础知识。本书内容第1章将介绍Hadoop环境及其核心组件,包括HDFS和MapReduce。第2章将讨论大型数据集的检测处理过程,从中发现数据的模式,生成相应的报告并采集有价值的内容。第3章将讨论MapReduce,这也是大多数计算/处理系统中的基本概念。第4章探讨Python语言,并在此基础上通过Hadoop对大数据进行分析。