收藏 分享(赏)

大数据思维——从掷骰子到纸牌屋.pdf

上传人:la****1 文档编号:2357319 上传时间:2023-05-08 格式:PDF 页数:277 大小:5.09MB
下载 相关 举报
大数据思维——从掷骰子到纸牌屋.pdf_第1页
第1页 / 共277页
大数据思维——从掷骰子到纸牌屋.pdf_第2页
第2页 / 共277页
大数据思维——从掷骰子到纸牌屋.pdf_第3页
第3页 / 共277页
大数据思维——从掷骰子到纸牌屋.pdf_第4页
第4页 / 共277页
大数据思维——从掷骰子到纸牌屋.pdf_第5页
第5页 / 共277页
大数据思维——从掷骰子到纸牌屋.pdf_第6页
第6页 / 共277页
亲,该文档总共277页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 内 容 简 介 数据分析不在于你掌握了多少先进的软件工具,也不在于你拥有多么高智商的头脑,而是要靠更大视野、更宽角度和更具有逻辑性的思维。本书不是一本介绍大数据概念的流行读物,也不是开讲编程工具高深理论的专业教材,而是立足于大数据之上的思维模式的普及。读者不需要任何统计学知识,也没必要掌握复杂的公式与算法,在最通俗易懂的案例介绍和娓娓道来中就可以轻松理解大数据分析的基本模式与方法。作为读者,你可以是大中专院校的数据分析专业学生,也可以是企事业单位的经营分析人员,或者是任何行业任何职业中喜欢“头头是道”的分析爱好者。开卷有益,即便你从来不需要大数据,也可以从本书中领悟到思维魔力,因此让工作与生

2、活更充满智慧与乐趣。未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。版权所有,侵权必究。图书在版编目(CIP)数据 大数据思维:从掷骰子到纸牌屋/马继华著.北京:电子工业出版社,2016.7(CDA 数据分析师系列丛书)ISBN 978-7-121-29407-5.大.马.数据处理.TP274 中国版本图书馆 CIP 数据核字(2016)第 163950 号 策划编辑:石 倩 责任编辑:石 倩 印 刷:北京季蜂印刷厂 装 订:北京季蜂印刷厂 出版发行:电子工业出版社 北京市海淀区万寿路 173 信箱 邮编 100036 开 本:7201000 1/16 印张:17.5 字数:281 千

3、字 版 次:2016 年 7 月第 1 版 印 次:2016 年 7 月第 1 次印刷 定 价:55.00 元 凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888,88258888。质量投诉请发邮件至 ,盗版侵权举报请发邮件至 。本书咨询联系方式:010-51260888-819 。前言 早就想写一本关于数据分析的书,最主要的原因就是,自己是统计专业毕业,又从事过多年数据分析的工作。工作几经变迁,现在已经很少用软件重操旧业,但却越来越感觉到数据分析的重要性。经常看网络、电视和报纸上的很多分析,在信誓旦旦的说教与言之

4、凿凿的数字之外,很多却是惨不忍睹的分析过程,甚至说是误人子弟也不为过。因为自媒体的流行,很多人根本没有基本的分析方法和技巧,在违背常理的情况下做出了很多奇异的解释,将大家引导到错误的方向。最为可笑的,曾经有一次看到某知名报纸上的文章,分析的是中国信息分类领域的两家互联网巨头:58 同城与赶集网(这两家公司在2015 年宣布合并)。当时,58 同城刚刚上市,这家报纸的专栏作者发表了一篇针对性的分析文章,文中称,他查阅了 ALEX 网站,58 同城的流量排名在世界网站的第 300 名,而赶集网排名是第 900 名。于是,这位作者就果断地下结论说,以上数据足以证明 58 同城的网络流量是赶集网的 3

5、 倍。呜呼,如此分析竟然逃过了多少编辑的眼睛,甚至还大数据思维:从掷骰子到纸牌屋 IV 被众多读者接受,是多么可悲!在实际工作中,一些人虽然科班毕业,通晓各种分析工具,甚至对各种各样的软件如数家珍,编程造模轻车熟路,但却对具体的分析套路与方法形同陌路,只能机械刻板地对数字结论进行解读。实际上,这样的数据分析还不如不做,错误的分析和错误的解读同样都是害人不浅。当然,由于分析能力不到位,让自己吃亏上当丢人的案例更是不胜枚举。中国足协就是典型案例。2013 年,人所共知的原因,中国足球终于迎来了出人头地的机会,中国足协更是喜出望外。为了配合隆重的节日气氛,也是要彰显一下中国足球有雄起的能力,中国足协

6、费尽心思地组织了一场国际足球友谊赛。中国足协应该在邀请友谊赛的对手方面煞费苦心。邀请德国队?肯定不行,严谨的德国人不明就里的职业精神会破坏比赛气氛。邀请西班牙队?鼎盛时期的西班牙与中国队比赛也必须让自己有一个可以接受的成绩,否则被人笑掉大牙。于是,中国足球邀请了我们的近邻,泰国队,可怕的比赛开始了。估计包括中国足协官员在内的中国球迷都没有想到,一场友谊赛进了 6 个球,更重要的是,我们只进了一个,泰国队进了 5 个。如果中国足协进行了充分的数据分析,也许就会避免这场悲剧的发生。历史数据证明,中国队此前已经多年没有胜过泰国队。如今的中国队不再是以前的那支“中国头球队”,依靠身高与体重就可以战胜东

7、南亚球队,几年来学西班牙控制脚下球的中国队既没有学到技术,也忘记了本分,对付泰国这样的小老虎已经心有余而力不足。或者,这场比赛还不如邀请韩国,场面也不会失控。如果我们非要挖苦一下数学水平奇差的中国足协,那也是可以的。前言 V 因为,某年某月某日的世界杯外围赛亚洲区预选赛,中国与黎巴嫩同组,在最后一轮比净胜球决定出线的关键时刻,中国足协竟然鬼使神差地算错了账。当全场球迷因为中国队 70 战胜中国香港而成功惊险获得出线权而欢呼的时候,足协才明白过来,80 才出线,我们已经被淘汰出局。这样的数据分析能力怎有能力让中国足球拿下大力神杯?从历史上看,中国一直不是一个靠数据化进行管理的国家,我们太多的中庸

8、之道和模糊分辨,“好好好”、“是是是”、“差不多”,贯穿着经济和社会管理的始终,这个模式也对中国的国家统计局产生着潜移默化的影响,也直接造成了人们对国家统计机构数字的不信任。数据分析是每个人生活与工作的基本功,小时候对父母的察言观色也是在分析,长大以后的相亲娶妻也要分析,工作中的汇报决策更需要分析,炒股理财也离不开分析。数据分析无处不在,数据分析无时不在,数据分析伴随我们生命的始终。我们生活的世界变化是如此之快。电力引入美国 46 年后,才覆盖1/4 国民;电话花了 35 年;电视机 26 年;宽带呢?只用了 6 年。2007年,数码世界容纳了 2810 亿 GB 的数据,全球平均每人 45G

9、B,数码资料首次超越保存空间总量,目前,互联网每小时处理的数据量已经超过 1EB。要给美国国会图书馆填满逾5700万份手稿、2900万册书籍和期刊、1200 万张照片及其他,需时 2 个世纪,现在全球每日生成的数码资料几乎是这些的 100 倍。人类 5000 年的文字记载总共是 5EB,今后每年将产生的数字内容超过 1000EB。我们所拥有的数据量在海量暴增,我们认识世界的水平也在不断提高。大数据时代来了,我们的思维是不是也应该有所改变?大数据思维:从掷骰子到纸牌屋 VI 目录 第 1 章 大数据与人脑的较量.1 BAT 为何如此了解我们.2 大数据预测世界杯真的很准吗.10 数据分析的五个基

10、础.16 结构化思维与分析的类别.26 人脑在大数据时代并没有过时.30 相亲是感性的还是理性的.37 第 2 章 大数据看起来是无所不能.45 从三只麻雀之死看大数据的起源.46 大数据会让我们失去做梦的权力吗.51 运营商的大数据为何抱着金碗要饭吃.56 大数据方法真能解决交通拥堵吗.61 德国足球队中的“第十二人”.66 大数据之下,人而无信,不知其可也.69 大数据助传统银行涅槃重生.77 用大数据方法保护大数据的安全.80 大数据让运营商成为旅游业的智囊.87 目录 VII 第 3 章 七种必备的大数据思维.91 从 1087 开始说起.92 统计,一门与赌博密不可分的技术.95 串

11、联,一种简单实用的日常分析法.99 对比,最常用也最实用的分析方法.102 拆分,庖丁解牛之后的透视.116 合成,组合起来的魅力.125 逻辑与反证,大视野大转换下的推理.128 京东净营收双降,危险真的降临了吗.134 大数据分析的关键在于有用.138 第 4 章 分析方法的全聚合.141 汇总与排序,你离不开的.142 谁说比例与频次不是分析.145 平均数里隐藏的大秘密.152 方差,也许你不用关注,但还是要理解更好.156 大数据时代的相关关系和因果关系.157 回归分析,你必须学会的分析方法.165 聚类、判别和因子分析.172 楼市命悬“一线”,“刚需”去哪里了.180 大数据分

12、析可能用到的软件.184 第 5 章 大数据,有时候很奇葩.189 看懂经济形势,奇葩大数据靠谱吗.190 我国航班正点率属国际中上水平.193 为什么互联网专车会造成城市拥堵.197 坐飞机最危险的阶段是去机场的路上.203 中医治未病,大数据四法助你看透 P2P 投资风险.207 你会叫个外卖给丈母娘拜年吗.211 大数据思维:从掷骰子到纸牌屋 VIII 第 6 章 善用数据,但别自作聪明.215 收集情报和信息的几种方法.216 球探与中国足球的屡战屡败.221 网络资料的鉴别与识别谣言.224 网上的这些分析都是忽悠,你中招过吗.228 为什么生儿子的司机车险出险率比生女儿的高.234

13、 大数据营销不能自作聪明,别小瞧你的消费者.236 第 7 章 换个角度,让结论海阔天空.241 如何看不同的趋势图.242 人均预期寿命提高,你真能多活一岁?.245 跳楼?数据也会说假话.250 一道被改过的阿里巴巴面试题.257 楼市危急,农民工如何去救开发商.260 模型都是靠不住的,挑战短板理论.264 大数据也有做不到的事.266 第 1 章 大数据与人脑的较量 大数据思维:从掷骰子到纸牌屋 2 BAT 为何如此了解我们 开篇,我们来讲一个简单的问题,你知道腾讯的 QQ 与微信的重要区别是什么吗?现在的中国人,如果有人问你,你用 QQ 或者微信吗?估计很少有人会回答“否”。因为,Q

14、Q 或者微信已经深入到我们生活的各个方面,成为工作与生活的必需品。可是,如果问你,QQ 与微信有什么区别?估计很多人答不上来。或者有人会说,QQ 有空间,微信有朋友圈;还有人会说,QQ 能穿衣服,微信没有。这些也是差别,但却没看到本质。通过大数据的分析,我们也许能得到更为靠谱的答案。我们试着再提示一下,你在使用 QQ 的时候,使用频率最高的词是什么?这个问题如果问腾讯,腾讯可以通过系统地查询很容易地得到答案。我们普通用户实际上也能说得出来。一些人说,QQ 上使用频率最高的词是“呵呵”或者“哈哈”,还有“哦”,但更多人会联想到一个词,那就是“在吗?”是的,我们需要的答案就是“在吗”。因为,我们可

15、以对比一下,你在使用微信的时候,还会经常使用“在吗”吗?答案是,不会。以上的分析,我们就是使用了最简单的词频分析,以最简单的数数的方式获得了最佳的分析路径,因为一句“在吗”就能充分地展示QQ 与微信的本质差别。我们通过进一步分析可知,因为 QQ 是互联网时代的产物,后来与移动互联网相结合,因此,QQ 有电脑客户端,也有手机客户端。大家使用 QQ 的时候之所以经常第一句说“在吗”,是因为我们无法判断第 1 章 大数据与人脑的较量 3 对方是否在线(或者没在电脑前或者在隐身),即便有人在电脑前,我们也无法断定是否本人正好坐在电脑前,所以,先问“在吗”可以确认身份,以便开启下一步的对话聊天。而微信是

16、移动互联网的产品,其主要使用环境是在手机端,手机是绝大多数人形影不离的用品,而且是个人用品,移动互联网又是实时在线,我们与人用微信联系的时候根本无需先问“在吗”,因为,只要这个人还在,他就一定在。你这个时候问对方“在吗”,实际的含义是“你还活着吗?”一个简单的“在吗”就形象地刻画出了腾讯的两个产品 QQ 与微信的代差,也找到了互联网与移动互联网产品分析的钥匙,这是多么神奇?接下来,如果你是中国移动的员工,或者是通信行业的分析师,如果要分析中国移动的飞信产品,那与之进行对比分析的产品应该是QQ 还是微信?很简单,应该是 QQ,而不是同样有一个“信”字的微信,因为,飞信与 QQ 同样都是互联网时代的产品,都拥有电脑客户端和手机客户端,而且都可以同时在线。分析就是如此,只要你找到了窍门,四两拨千斤,简单的方法可以解释大道理,何必非要扎在数据堆里当无头苍蝇呢?对用户的使用行为研究最充分的,无疑是阿里巴巴。很多人都发现,只要你打开淘宝,首页上的推荐就让你欲罢不能,特别是网页中间那张跳动的大图,怎么看都是自己想要的商品。是的,淘宝说要实现千人千面,每个人看到的网页都是不一样的,因为那个页面就是根据

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教育教学 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2