更好:不是因果关系,而是相关关系
林登与亚马逊推荐系统
知道“是什么”可以创造点击率,这种洞察力足以塑造很多行业,不仅仅只是电子商务。亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要知道为什么。
关联物,预测的关键
在大数据背景下,通过应用相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物。相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。
相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。相关关系没有绝对,只有可能性。通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。相关关系时无法预知未来的,它们只能预测可能发生的事情。
当数据点以数量级方式增长的时候,我们会观察到许多似是而非的相关关系。专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。
在大数据时代,我们现在拥有如此多的数据,这么好的机器计算能力,因而不再需要人工选择一个关联物或者一小部分相似的数据来逐一分析了。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。
在社会环境下寻找关联物只是大数据分析法采取的一种方式,同样有用的一种方法是,通过找出新种类数据之间的相互联系来解决日常需要。通过找出一个关联物并监控它,我们就能预测未来。
“是什么”,而不是“为什么”
在小数据时代,由于计算机能力的不足,大部分相关关系分析仅限于寻求线性关系。在大数据时代,经过复杂的分析,我们能够发现数据的“非线性关系”。
在大数据时代,通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好地了解了这个世界。
当我们说人类是通过因果关系了解世界时,我们指的是我们在理解和解释世界各种现象时使用的两种基本方法:一种是通过快速、虚幻的因果关系,还有一种就是通过缓慢、有条不紊的因果关系。大数据会改变这两种基本方法在我们认识世界时所扮演的角色。
首先,我们的直接愿望就是了解因果关系。即使无因果关系存在,我们也还会假定其存在。普林斯顿大学心理学专家,同时也是2002年诺贝尔经济学奖得主丹尼尔·卡尼曼用例子证明了人有两种思维模式:第一种是不费力的快速思维,通过这种思维方式几秒钟就能得出结果;另一种是比较费力的慢性思维,对于特定的问题,就是需要思考到位。
快速思维模式使人们偏向用因果关系来看待周围的一切,即使这种关系并不存在。大数据之间的相关关系,将经常会用来证明直觉的因果联系使错误的。慢性思维,也将因为大数据之间的相关关系迎来大的改变。
相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础。相关关系很有用,不仅仅使因为它能为我们提供新的视角,而且提供的视角都很清晰。而且我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。
在越来越多的情况下,快速清晰的相关关系分析甚至比慢速的因果分析更有用和更有效。在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。
改变,从操作方式开始
数据正在以新的方式帮助我们解决现实生活中的难题。我们需要改变我们的操作方式,使用我们能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。
大数据,改变人类探索世界的方法
“理论的终结”似乎暗示着,尽管理论扔存在于像物理、化学这样的学科里,但大数据分析不需要成形的概念。这实在荒谬。大数据是在理论的基础上形成的。
(68-94)