Q1 怎样的数据才能叫做大数据?
大数据在舍恩伯格看来,一共具有三个特征:全样而非抽样,效率而非精确,相关而非因果。
——《大数据时代》
1【全样而非抽样】
谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖了7成以上的北美搜索市场,而在这些数据中,已经完全没有必要去抽样调查这些数据:数据仓库,所有的记录都在那里躺着等待人们的挖掘和分析。
如果想称之为大数据,首先要做到(近似)全样本。 就是直接获取总体信息,不必通过样本参数去推断总体参数。
2【效率而非精确】
精确的计算是以时间消耗为代价的。
在小数据时代,追求精确是为了避免放大的偏差而不得已为之(设想一下,在一个总样本为1亿人口随机抽取1000人,如果在1000人上的运算出现错误的话,那么放大到1亿中会有多大的偏差)
但在样本=总体的大数据时代(有多少偏差就是多少偏差而不会被放大),快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多。
在能够获得近似全样本的基础上,为了提高商业上的效率,数据分析通常采用简单算法。
3【相关而非因果】
舍恩伯格认为,大数据时代只需要知道是什么,而无需知道为什么,就像亚马逊推荐算法一样,知道喜欢A的人很可能喜欢B但却不知道其中的原因。 商业本来就是以结果为导向的。
因为无法控制无关因素,所以只能得到相关结论,而非因果。
参考阅读:http://bbs.pinggu.org/thread-2239985-1-1.html
《大数据时代》《删除》《第四范式》