1、大数据分析五个重要阶段、。大数据分析四个应用实例大数据分析技术数据获取和记录XML文档存储与检索系统Hadoop数据抽取、清洗和注记股票市场预测系统HDFS数据集成、聚集和表示海量视频检索系统HBase数据分析和建模HDFS云文件系统MapReduce数据解释实战大数据怎么做大数据分析?大数据分析怎么应用在业务系统上?鲍亮李倩编著Big dataComputingThe internet of thing墅-一清华大学出版社前言大数据时代已经到来,大数据处理已经成为当今信息处理的热点研究内容。不同于大规模数据,大数据具有自身鲜明的4V特征:Volume(规模性)、Variety(多样性).Ve
2、locity(高速性)和Veracity(真实性)。大数据不仅规模大,更需要采取新的数据思维来应对.其必然导致理论和技术上的革新。因此,大数据分析也被认为是继实验、理论和计算之后的科学研究第四范式。大数据的出现必将颠覆传统的数据管理方式,在数据来源、数据处理方式和数据思维方面都会对其带来革命性的变化2013年初,美国计算机协会数据库专家委员会联合研究界、产业界和政府部门的相关研究人员,发布了大数据研究白皮书,提出了大数据分析的5个重要阶段:数据获取和记录数据抽取、清洗和注记,数据集成、聚集和表示,数据分析和建模,数据解释。在这5个阶段中需要考虑数据的异构性、规模、时效性、复杂性和隐私问题。本书
3、以此为提纲进行内容组织,首先介绍了5个阶段中相关的科学与技术问题,然后以实际案例的形式详细介绍了数据采集、数据存储与检索、数据处理、数据访问与转换4个大数据领域的重要问题,最后以股票市场预测系统、海量视频检索系统和云文件系统3个大数据实际应用系统为例详细介绍如何进行问题分析、数据建模以及系统的设计与实现。本书强调理论联系实际,重点在于介绍如何利用现有技术解决实际的大数据问题。目前市场上以大数据为主题的书籍较多,但经过作者调研,未见以“利用现有技术解决大数据问题”为主题的大数据实战类书籍。本书编写团队核心成员自2010年起陆续承担了一些与大数据采集、存储、处理、分析、挖掘和检索方面的研究与应用开
4、发工作,具有丰富的项目实践经验。这些实际项目经验形成了本书最为核心的第612章的内容。通过项目实战,我们积累了一些解决大数据问题的宝贵经验,对大数据的核心技术有了较为深刻的理解,认为有必要将自己的经验和认识整理出来,以满足广大读者利用现有技术解决大数据实际问题的迫切需求与心情,这也是书名的由来。本书适合不同层次的读者阅读,建议读者根据自己的兴趣和目的有选择性地阅读:希望了解大数据相关的基础理论与技术的读者,可以重点阅读第15章,对于大数据领域的初学者,可以重点阅读第19章:对于已经掌握大数据基础理论,具有一定的技术基础,想解决实际实战大数据大数据问题的读者,可以重点阅读第1012章。除封面署名的作者之外,这里还需要感谢书籍编写团队核心成员李江、张翔、杨阳、王贺刘凯、王学良、张静、周文琳.刘晓静、张艳华、王炎楠、黄鹏、高小青的辛勤努力。还需要感谢阚传奇、蒋帆的大力帮助,感谢我的导师陈平教授在大数据科学研究方面对我的启发与悉心指导。由于大数据涉及的学科面很广,研究问题纷繁复杂,相关资料目前还比较少,加之作者水平有限,时间紧迫,书中难免存在错误与不当,恳请读者批评指正。建议和意见请发至作者邮箱。编者2013年12月川