徐子沛《大数据》
破茧:数据挖掘之只能生命的产生
每天早上一醒来,我就要问自己:怎样才能让数据流动得更好、管理得更好、分析得更好?
——罗林·福特,沃尔玛首席信息官
数据挖掘是通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间隐藏的关系、模式和趋势,为决策者提供新的知识。之所以称之为“挖掘”,是比喻在海量数据中寻找知识,就像开矿掘金一样困难。
一开始,数据挖掘曾一度被称为“基于数据库的知识发现”。随着数据仓库的产生,“数据挖掘”的叫法开始被广泛接受。也正是因为有了数据仓库的依托,数据挖掘如虎添翼,如“巧妇”走进了“米仓”,在实业界不断创造点“数”成金的故事。其中,最为经典的例子当属啤酒喝尿布。
这是发生在沃尔玛的故事。研究人员发现:跟尿布一起搭配购买最多的商品竟然是啤酒。
原因:一些年轻的爸爸经常要到超市去购买婴儿尿布,有30%到40%的新爸爸会顺便买点啤酒犒劳自己。
数据挖掘的两个侧重点
如何把散布在网络上的这些资源整合起来,并从中自动挖掘有价值的信息和知识,正是当前数据挖掘面临的最大挑战之一。