数据很强大,但过度使用,或者确切的说,不恰当的使用,必然会带来弊端。
作为全球20位顶级大数据分析专家之一的莫妮卡•罗加蒂依据她个人的经验总结了10条数据圈套,结合此,谈谈我的一些感触。
1、假设数据没有噪音
准确有效实用的数据是一切分析的基础,但是作为一种资产,数据本身的开采就会很费劲、耗时,数据的偏差来源于采集的方式差异(前端vs后端等)、数据的统一口径(财务vs业务等)、数据处理过程中的偏差(截取时间点和小数点差异)、抓取等等,这些都可能对数据产生影响,影响数据的纯度,干扰后期的分析;
2、忘记归一化
在不同的数据往往会带有不同的含义,比如升高170cm和体重52kg,这里的170和52就没有可比性,如果这2者都作为分析中的一个参数,那对最终的结果肯定会有影响。
归一化是把他们同意到一个层度上,比如0~1。
3、排除异常点
干扰数据为什么产生,如果 只是简单将其排除不讨论是不妥的,要做的是先验证,到底是浏览了1000次的用户,还是被抓取了1000次;
4、包括异常点
不要让异常点干扰数据判断;
3和4这个可以用平均财富来作为实例说明,比尔财富5200亿元,二狗存款1000元,拴住存款2000元,大明存款3200元,如果计算这4人的财富均值作为对普通人的估算,显然是不合理的,我们知道比尔是属于异常点;
5、忽视季节性
这个其实是外部环境的影响力,如果考虑一个规律的时候,没有考虑当时的时间情况(假日、活动、星期等),得到的结论可能就不准确;’
6、抛开基数谈增长
从1到2,和从100到110,前者增长率是100%,后者是10%,但是真实的增长数却分别是1和10,这就有涉及到了数据会展示你想展示的那一面,从而具有迷惑性;
7、数据呕吐
不知道什么数据重要的时候,设置太多的数据指标,到最后只能是麻木无感
8、谎报军情的指标
数据异常警报取决于你设置的灵敏度,过多的警报,会让你逐步无视各种异常
7和8强调的是数据的精简,避免虚荣心指标,找到核心数据指标
9、‘不是在这搜集的’综合征
如何结合一些其他的数据来发现更好的想法,要以开放的态度,去看待能融合找到机会点
10、关注噪声
人类与生俱来的模式识别能力,容易让我们误以为无规律的失误是有规律的,在分析的时候能保持清醒看待,从假设-验证来出发,而非基于或执拗于个人的偏见。
通过数据,我们能够真正了解发生了什么并能接受新的可能性,这就是数据思维给我带来的认知。