1、Alluxio创始人及实践先驱联合力荐BroadviewAlluxio大数据统一存储原理与实践范斌顾荣/著深度解密Alluxio核心概念与技术应用项目PMC&Maintainer凝聚钻研实力与超前视野中国工信出版集团電子工蒙出版社Alluxio大数据统一存储原理与实践范斌顾荣/著学支米大&书馆藏電子工紫出板社Publishing House of Electronics Industry北京BEIJING内容简介Alluxio这一以内存为中心的分布式虚拟文件系统,最初诞生于加州大学伯克利分校的AMPLab,其开源社区在目前大数据生态系统中发展很快。本书以广泛使用的Alluxio1.8.1版本为
2、基础进行编写,是一本全面介绍Alluxio相关技术原理与实践案例的书籍。本书主要内容包括Alluxio系统快速入门、Alluxio系统架构及读写工作机制、Alluxio与底层存储系统的集成、Alluxio与上层计算框架的集成Alluxio基本功能和高级功能的介绍与使用。此外,本书还详细介绍了Alluxio的应用案例与生产实践,并详细解读了Auxo的核心框架和技术应用,旨在为大数据从业人员和大数据存储技术爱好者提供一个深入学习的平台,也可用作开源社区开发者指南。未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。版权所有,侵权必究。图书在版编目(CP)数据Alluxio:大数据统一存储原理与
3、实践/范斌,顾荣著.一北京:电子工业出版社,2019.8ISBN978-7-121-36782-3I.A.范顾.分布式数据处理V.TP274中国版本图书馆CP数据核字(2019)第108352号责任编辑:张春雨特约编辑:田学清印刷:三河市鑫金马印装有限公司装订:三河市鑫金马印装有限公司出版发行:电子工业出版社北京市海淀区万寿路173信箱邮编:100036开本:7879801/16印张:13.75字数:242千字版次:2019年8月第1版印次:2019年8月第1次印刷定价:79.00元凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010
4、)88254888,88258888。质量投诉请发邮件至,盗版侵权举报请发邮件至。本书咨询联系方式:010-51260888-819,。推荐序一如今的世界步入了一个数据革命的时代。随着互联网、人工智能、移动计算、自动驾驶、物联网等新技术的不断进步,人们生成、采集、管理和分析的数据规模正在呈指数级增长,存储和处理这些大规模数据促使人们不断地实现技术的进步,并为人们带来了难以想象的技术革命的重大机遇。在过去的十年中,我们看到了数据处理的技术栈领域产生了很多重要的技术革新。例如,在数据应用层,从最初的MapReduce框架,衍生出了很多不同的通用化和专用化的系统,如通用数据处理平台Apache Sp
5、ark,流式计算系统Apache Flink、Apache Samza,深度学习系统TensorFlow、Apache Mahout,图计算系统GraphLab、GraphX,查询系统Presto、Apache Hive、Apache Drill,等等。类似地,整个生态系统的存储层也从Hadoop分布式文件系统HDFS发展并增加了更多的可选项。例如,文件系统、对象存储(ObjectStore)系统、二进制大对象存储(BLOB Store)系统、键-值对存储(Key-Value Store)系统、NoSOL数据库等。这些不同类型的系统实现了对性能、速度、成本、易用性、架构等设计上不同的权衡。随着
6、技术栈复杂程度的不断增加,数据产业的发展也面临更多的机遇和更大的挑战。数据被存储在不同的存储系统中,这使用户和上层数据应用很难高效地发现、访问和使用这些数据。例如,对于系统开发人员而言,需要开展更多的工作以将一个新的计算或存储部件集成到现有的生态系统中:对于应用开发人员而言,高效地Auxi0:大数据统一存储原理与实践访问不同数据存储系统的方式变得更加复杂:对于终端用户而言,从远程的数据存储系统中访问数据,容易导致性能的损失和语义的不一致:对于系统管理员而言,当底层物理存储和上层所有应用都深度耦合时,添加、删除、升级一个现有计算系统或数据系统,抑或将数据从一个存储系统迁移到另一个存储系统,是非常
7、具有挑战性的。Alluxio作为全球首创的分布式虚拟文件系统(Virtual Distributed File System),就在上述背景下应运而生。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁,使应用可以通过Alluxio提供的统一数据访间问方式访问底层任意存储系统中的数据。在大数据生态系统中,Alluxio位于上层大数据计算框架和底层分布式存储系统之间,运行在上层的大数据计算框架可以忽略底层分布式存储系统的细节,直接和Alluxio进行交互,Alluxio透明地将上层大数据框架的数据访问请求转发到底层分布式存储系统中,并将底层多个分布式存储系统中的数据自动缓存到Allu
8、xio中,从而提升某些上层大数据计算框架的数据访问速度的数量级。Alluxio(前身Tachyon)系统曾是我在加州大学伯克利分校AMPLab的博士研究课题,并在2012年年末完成了该系统的第一个版本,于2013年4月正式开源,2015年项目更名为Alluxio自2013年4月A11uxi0开源以来,已有超过200个机构、1000多位贡献者参与到Alluxio系统的开发中,其中包括阿里巴巴、百度、卡内基梅隆大学、谷歌、BM、英特尔、加州大学伯克利分校、腾讯、京东、雅虎等大学、科研院所和企业。到今天为止,上百家公司的生产线中已经部署了Alluxio,其中有的集群已经超过了1000个节点。随着Al
9、luxio开源项目的快速发展和应用需求的日益旺盛,我们于2015年创立了Alluxi0公司,并且获得Andreessen Horowitz、Mark Leslie(Veritas Founding CEO)、Jack Xu(网易、新浪前CTO)、Sujal Patel(Isilon创始人)等人的投资。未来,我们将立志于让Alluxio成为大数据及其他水平扩展应用的事实上的统一数据层。我很高兴看到,这本系统、深入介绍Auxo项目技术原理和应用实践的书籍即将付梓。本书的两位作者范斌博士和顾荣博士是分布式系统领域的专家,也是Alluxio项目管理委员会的成员和源码的维护者。其中,范斌博士于2015年从谷歌IV