1、高等院校数据科学与大数据技术系列规划教材大数据实时计算与应用吴斌主编清华大学出版社北京内容简介本书定位于大数据专业核心技术一实时计算,重点讨论大数据应用场景中的数据特点和应用需求的实时流计算技术。本书通过对分布式实时计算系统的分析,将学习部分按功能性质划分成四个模块,分别为Kaka数据流处理模块,Strom实时计算模块、HBase数据存储模块和Zookeeper分布式协调模块。对此四个工作模块进行教学化处理,形成HBase基础操作、Zookeeper集群管理,配置Storm集群等核心课程体系,并配以实例使学习者便于理解,易于上手,掌握实时计算Stom相关的基础知识和实际业务系统的开发能力。本书
2、主要针对具有一定软件编程基础(特别是数据技术)的学生和专业工程师,特别是数据科学、数据分析专业的高年级本科学生以及从事与数据相关的高级技术人员的读者人群。本书封面贴有清华大学出版社防伪标签,无标签者不得销售。版权所有,侵权必究。侵权举报电话:010-6278298913701121933图书在版编目(CIP)数据大数据实时计算与应用/吴斌主编.一北京:清华大学出版社,2018(高等院校数据科学与大数据技术系列规划教材)ISBN978-7-302-50321-7I.大.吴.数据处理软件一高等学校一教材W.TP274中国版本图书馆CIP数据核字(2018)第114981号责任编辑:刘翰鹏封面设计:
3、傅瑞学责任校对:李梅责任印制:李红英出版发行:清华大学出版社网址:http:/,http:/地址:北京清华大学学研大厦A座邮编:100084社总机:010-62770175邮购:010-62786544投稿与读者服务:0l0-62776969,c-质量反馈:010-62772015,课件下载:http:/,010-62770175-4278印装者:三河市金元印装有限公司经销:全国新华书店必本:185mm260mm印张:128数:288千字版次:2018年7月第1版印次:2018年7月第1次印刷定价:36.00元产品编号:078813-01大数据实时计算与应用(2)有Java基础的开发者。(3)
4、大数据实时计算技术开发者。(4)实时计算集群维护者。(5)分布式实时计算系统相关维护人员。如何阅读本书本书共分为五个部分。第一部分为简介。简介部分为第1章,主要介绍了分布式实时计算系统的相关知识,从分布式的基本概念到分布式通信的原理,最后引出分布式实时计算架构的四个模块Kafka、Storm、Zookeeper和HBase。第二部分为数据获取模块Kaka的相关介绍,包括第2章第4章。本部分介绍了Kafka的相关基础知识和应用知识,让读者了解Kafka的结构、环境搭建方式以及消息传输方式等。本部分首先介绍了Kafka的基本概念,引出了Kafka的基本特性以及Kafka分布式系统架构中关于生产者和
5、消费者的介绍。随后介绍了Kaka的环境搭建方法,最后介绍了Kafka消息传送方面的知识,包括性能优化、主从同步以及客户端API等信息,同时解释了消息和日志方面的相关概念。第三部分为数据调度模块Zookeeper的相关介绍,包括第5章。本部分讲解了Zookeeper相关的基础知识和开发知识,让读者了解Zookeeper的来源、性质及基本概念、Zookeeper开发的应用方法及实现方式、Zookeeper集群的配置及管理方法等。本部分首先介绍了分布式协作存在的三大难点,引出了FLP定律和CAP定律。接着从Zookeeper的Znode类型、通知机制、Lead选择方法等方面介绍Zookeeper的基
6、本概念。随后介绍了Zookeeper的两种运行模式、架构及其应用场景,并详细介绍了Zookeeper可调用的多种API用法,包含会话建立、管理权获取、节点注册、任务队列化等。最后介绍了Zookeeper集群管理的需求及方法,同时解释了动态选举的过程。第四部分为数据存储模块HBase的相关介绍,包括第6章第9章。本部分首先介绍了HBase的架构以及存储API,然后介绍了HBase的基础操作,包括put、get、delete操作,批处理操作以及HTable、Bytes等其他操作。随后介绍了HBase的高阶特性,包括过滤器、计数器、协处理器等。最后介绍了HBase管理部分的内容,包括HBase的数据
7、描述方式以及表管理API等。第五部分为数据处理模块Storm的相关介绍,包括第10章第14章。本部分首先对Storm的基本概念进行介绍,包括Storm的基本特性、topology的构建方式、Storm的并发机制以及数据流分组等相关知识。随后介绍了在Linux上配置Storm集群的相关方法以及如何将topology提交到Storm集群上运行。从Trident的topology、接口、状态等方面介绍了trident的相关知识,同时介绍了一种基于Storm的实时在线机器学习库一Trident-ML,从各个组件对DRPC进行介绍。最后通过两个具体的Storm项目实例让读者对Storm有更深刻的理解。编者2018年5月