1、内容简介本书以Python3版本作为数据分析与挖掘实战的应用工具,从Pyhton的基础语法开始,陆续介绍有关数值计算的Numpy、.数据处理的Pandas、.数据可视化的Matplotlib和数据挖掘的Sklearn等内容。全书共涵盖15种可视化图形以及10个常用的数据挖掘算法和实战项目,通过本书的学习,读者可以掌握数据分析与挖掘的理论知识和实战技能。本书适于统计学、数学、经济学、金融学、管理学以及相关理工科专业的本科生、研究生使用,也能够提高从事数据咨询、研究或分析等人士的专业水平和技能。本书封面贴有清华大学出版社防伪标签,无标签者不得销售。版权所有,侵权必究。侵权举报电话:010-6278
2、298913701121933图书在版编目(C1P)数据从零开始学Python数据分析与挖掘/刘顺祥著.一北京:清华大学出版社,2018ISBN978-7-302-50987-5I.从I.刘.软件工具一程序设计IV.TP311.561中国版本图书馆CIP数据核字(2018)第192204号责任编辑:王金柱封面设计:王翔责任校对:闫秀华责任印制:刘海龙出版发行:清华大学出版社网址:http:/,http:/地址:北京清华大学学研大厦A座邮编:100084社总机:01062770175邮购:010-62786544投稿与读者服务:010-62776969,c-质量反馈:010-62772015,印
3、装者:三河市君旺印务有限公司经销:全国新华书店开本:190mm260mm印张:23.5字数:602千字版次:2018年10月第1版印次:2018年10月第1次印刷定价:79.00元产品编号:079655-01前言为什么写这本书随着大数据时代的演进,越来越多的企业在搜集数据的同时,也开始关注并重视数据分析与挖掘的价值,因为他们正尝到这项技术所带来的甜头。例如,通过该技术可以帮助企业很好地认识其用户的画像特征,为用户提供个性化的优质服务,进而使用户的忠诚度不断提升:通过该技术提前识别出不利于企业健康发展的“毒瘤”用户(如黄牛群体、欺诈群体等),进而降低企业不必要的损失:通过该技术可以为企业实现某些
4、核心指标的判断和预测,进而为企业高层的决策提供参考依据等。企业对数据分析与挖掘技术的重视就意味着对人才的重视,这就要求希望或正在从事数据相关岗位的人员具备该技术的理论知识和实战能力。Pytho作为大数据相关岗位的应用利器,具有开源、简洁易读、快速上手、多场景应用以及完善的生态和服务体系等优点,使其在数据分析与挖掘领域中的地位显得尤为突出。基于Pyho加可以对各种常见的脏数据完成清洗、绘制各式各样的统计图形,并实现各种有监督、无监督和半监督的机器学习算法的落地,在数据面前做到游刃有余,所以说Python是数据分析与挖掘工作的不二之选。根据多家招聘网站的统计,几乎所有的数据分析或挖掘岗位都要求应聘
5、者掌握至少一种编程语言,其中就包括Python。纵观国内的图书市场,关于Pyho的书籍还是非常多的,它们主要偏向于工具本身的用法,如关于Python的语法、参数、异常处理、调用以及开发类实例等。但是基于Python的数据分析与挖掘书籍并不是特别多,关于这方面技术的书籍更多的是基于R语言等工具。本书将通过具体的实例讲解数据的处理和可视化技术,同时也结合数据挖掘的理论知识和项目案例讲解10种常用的挖掘算法。2015年9月,笔者申请了微信公众号,取名为“数据分析1480”,目前已经陆续更新了近200篇文章。一方面是为了将自己所学、所知记录下来,作为自己的知识沉淀:另一方面是希望尽自己的微薄之力,将记录下来的内容分享给更多热爱或从事数据分析与挖掘事业的朋友。但是公众号的内容并没有形成系统的知识框架,在王金柱老师的鼓励和支持下才开始了本书的写作,希望读者能够从中获得所需的知识点。本书的内容本书一共分为三大部分,系统地介绍数据分析与挖掘过程中所涉及的数据清洗与整理、数据可视化以及数据挖掘的落地。第一部分(第13章)介绍有关数据分析与挖掘的概述以及Pythor的基础知识,并通过一个