更多:不是随机样本,而是全体数据
让数据“发声”
IBM的资深“大数据”专家杰夫·乔纳斯提出要让数据“说话”。
大数据与三个重大的思维转变有关:
首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。
最后,我们的思维发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。
事实上,我们形成了一种习惯,那就是在我们的制度、处理过程和激励机制中尽可能地减少数据的使用。
小数据时代的随机采样,最少的数据获得最多的信息
有目的地选择最具代表性的样本是小数据时代的产物。1934年,波兰统计学家耶日·奈曼指出,这只会导致更多更大的漏洞。事实证明,问题的关键是选择样本时的随机性。
统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。当样本数量达到了某个值之后,我们从新个体上得到的信息会越来越少,就如同经济学中的边际效应递减一样。
认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的。通过收集随机样本,我们可以用较少的花费做出高精确度的推断。
本质上来说,随机采样让大数据问题变得更加切实可行。
随机采样只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性,但是现实采样的随机性非常困难。一旦采样过程中存在任何偏差,分析结果就会相去甚远。同时,随机采样不适合考察子类别的情况,因为一旦继续细分,随机采样结果的错误率会大大增加。随机采样的调查结果缺乏延展性,即调查得出的数据不可以重新分析以实现计划之外的目的。
全数据模式,样本=总体
“样本=总体”是指我们能对数据进行深度探讨。但我们需要足够的数据处理和存储能力,也需要最先进的分析技术。同时,简单廉价的数据收集方法也很重要。
大数据不用随机分析法这样的捷径,而采用所有数据的方法。因为大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,所以我们就可以正确地考察细节并进行新的分析。在任何细微的层面,我们都可以用大数据去论证新的假设。
(28-43)