参加过公司组织的关于大数据的培训也有两三次了,这本书是每个培训老师都会推荐的读物。能让你快速的了解到什么是大数据,大数据有什么用,要怎么用大数据。我一直信奉一个观点,那就是无论何时都要对这个世界上出现的新鲜事物保持一颗好奇心,更何况这个新鲜事物将会对我们未来的生活产生翻天覆地的变化。
人类对数据的利用亘古已有。虽然我们很多人并非IT或是统计行业这样整日与各式数据为伍的专业人士,但我们的日常生活中也离不开各种各样对数据的记载、分析与利用。主妇们会记录着家庭账单,做好开源节流;备孕的夫妻会记录好时间,以期迎接一个健康的小生命;电子狗也会提醒着老司机此处产生的罚单较多请小心行驶。
在信息技术发展日新月异的今天,人们对于数据的定义已有原先的小范围抽样数据上升到了大数据的范畴。简单来说,大数据就是全体而非样本数据。过去人们的数据分析基于的都是样本数据,这是由于受到了数据收集,分析阶段技术的限制。传统的计算机技术无法储存与处理海量的数据,但是现在我们已有了以云计算为基础的信息储存,分享和挖掘手段,科技的进步为我们分析全体数据来发现以往不为人知的秘密提高提供了强有力的保障,它能够让大数据“发声”。
大数据主要与三个重大的思维转换有关:1.分析与某事物相关的所有数据而非依靠分析少量的数据样本。2.不再一味追求数据的精确度。3.从思想上发生转变,由因果关系转而关注事物的相关关系。
相对于大数据时代,以前的我们处于小数据时代,小数据时代对于数据的处理采取的是随机采样,以期通过最少的数据获得最多的信息。但样本选择的随机性比样本数量更为重要,因为统计学家们证实采样分析的精准性随着采样随机性的增加而增加,却与样本数量的增加关系不大。但现实中实现采样的绝对随机性是非常困难的,一旦存在任何的偏见,都会给分析结果带来偏差。而且采样分析还不适用于分析子类别,原因很简单,由有偏差的结果再细分下来,不是错上加错吗?那么最好的解决办法,就是分析全体数据。
随着数据规模的扩大,我们对数据的精准度要求也会相应降低。主妇们的账簿上可能精确到几毛钱,而放到国民经济问题上则不必精确至此。
关于大数据将人们的目光由因果关系转为相关关系是我觉得最为神奇的一点,在我看来也是宇宙间两种哲学思想的融合。因果规律是佛教认识这个世界的基本方法,而万事万物都是有联系的是荣格,马克思提出的观点。本书作者举出了谷歌和farecast两个例子。谷歌通过分析美国所有人在Google上的搜索词条记录就可以预测出哪一个城市将会爆发流感,farecast通过分析航线以往的票价,就可以预测未来的机票价格走势。这些都是利用数据分析相关性继而做出预测。这也是大数据的核心所在。因果关系也许并没有那么重要了,我们无需弄清是什么原因导致了这样的结果,而只需知道通过什么办法就可以解决问题。就像作者举例,通过大数据分析,感冒与橙汁相关性最大,那么橙汁就是治疗感冒的良药,我们无需知道为什么橙汁可以治疗感冒。照此趋势下去,未来也许医生会失业也未可知。
continuing...