在第一部分,作者认为大数据时代处理数据理念上有三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。
第一,小数据时代的随机采样是采用最少的数据来获得最多的信息。但随机采样本身就存在许多缺陷,比如其结果的准确性取决于采样的绝对随机性,但是实现采样的随机性非常困难;不适合考察子类别和更深层次的细分领域等等。而在全数据模式,样本=总体。拥有全部或几乎全部的数据,我们能够从不同的角度,更细致地观察和研究数据的方方面面,而采样几乎无法达到这样的效果。
第二个转变是数据的质量,在小数据时代,追求精确度是合理的。因为当时我们收集的数据很少,所以需要越精确越好。而大数据时代允许数据的不精确,纷繁的数据越多越好,因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,而且大数据的简单算法比小数据的复杂算法更有效。虽然数据的增加也会带来各种各样的混乱,比如错误率会相应增加、无法做到格式一致。但在很多情况下,与致力于避免错误相比,对错误的包容会带给我们更多好处。所以通常我们不会再花大力气去提升数据的精确性。
第三,在小数据时代,相关关系分析和因果分析都始于假设,这些分析就都有受偏见影响的可能,而且极易导致错误。而在大数据时代,基于海量数据的相关关系分析法更准确、更快,而且不易受偏见的影响,能够有效预测事件发展趋势。我们习惯性地用因果关系来考虑事情,但实际上因果关系是无法被证实的。证明因果关系的实验要么不切实际,要么违背社会伦理道德,因此我们知道“是什么”就够了,没必要知道“为什么”。不必非得知道现象背后的原因,而是要让数据自己“发声”。
第二部分讲的是大数据时代的商业变革。
首先是大数据时代一切皆可量化,也就是数据化。阿拉伯数字和算术的诞生让人们对数据的计量和记录充满兴趣。现在的文字、方位、沟通等都变成了数据,万千事物都能转化为数据形式。
其次是讲数据能够再利用,它除了已经挖掘出来的首要价值,还有潜在价值值得我们继续挖掘。数据的潜在价值有三种最为常见的释放方式:基本再利用、重组数据和可拓展数据。而数据的折旧值、数据废气和开放数据则是更为独特的方式。因此我们要创新数据用途,挖掘出数据新的价值并合理使用,因为大部分的数据价值在于它的使用,而不是占有本身。
最后作者重点转移到了使用数据的公司和它们如何融入大数据价值链中。大数据公司的数据价值可能来源于数据本身、公司的专业技能或公司与个人的数据思维。有些数据价值还只能通过中间人来挖掘,从各种地方搜集数据进行整合,然后再提取有用的信息进行利用。同时,数据科学家的崛起也会减弱行业专家在各个领域的影响力,因为专家无法做到完全客观。大数据也提高了企业竞争力,为小公司带来了机遇。
第三部分讲的是大数据带给我们的威胁和挑战,以及如何合理使用数据。
大数据为监测我们的生活提供了便利,同时也让保护隐私的法律手段失去了应有的效力。同样,通过大数据预测,对我们的未来想法而非实际行为采取惩罚措施,也让我们惶恐不安,因为这否认了自由意志并伤害了人类尊严。
同时,那些尝到大数据益处的人,可能会把大数据运用到它不适用的领域,而且可能会过分膨胀对大数据分析结果的信赖。随着大数据预测的改进,我们会越来越想从大数据中掘金,最终导致一种盲目崇拜,毕竟它是如此的无所不能。
在这种情况下,我们需要信息管理进行变革:第一,设立一个不一样的隐私保护模式,这个模式应该更着重于数据使用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上;第二,个人可以并应该为他们的行为而非倾向负责;第三,大数据的运作是在一个超出我们正常理解的范围之上的黑盒子,这就要求社会要培养懂得运用新技术的专门人才,包括外部算法师和内部算法师;最后,为了防止数据大亨垄断市场,需要制定相关法律。