数据处理的流程
样本选取:(三个问题:大小,总体)
基础图标:不要特别复杂,而是要简洁清晰。
图表
趋势图:时间?
分布图
关系/分类:散点图、关系图
散点图:大小/颜色/形状/位置(二维) ->可以有多维度
相关性
怎么解读相关性?
城镇化率决定了人均GDP的上限。
城镇化率高,人均GDP不一定;城镇化率低,人均GDP一定低。
人均GDP高,城镇化率。。。
(注意两边一定要做,两个维度都要讲)->因果性,对照比较。
(图见手机)
所以:城镇化率低,人均GDP一定低
人均GDP高,城镇化率一定高
相关性不等于因果性。
A与B相关,但是谁是因谁是果。
A与B相关,但是都与另一个事件C的结果
A与B相关但是纯属巧合(过去200年海盗的减少令全球气温上升)
看起来没有相关性,但是其实有因果(滴滴打车和汽车广播电台的衰败)
所以:如何从相关性推出因果性。(在进行数据分析时,利用尝试和逻辑;做实验控制变量(A/B测试)