数据清洗是数据分析的流程之一,也是需要花费数据分析师很大一部分时间来做的一件事。
数据清洗包括数据缺失问题和数据异常问题:
一、如果清洗中发现是数据缺失的问题,请你这样问自己?
1.缺失的信息来源于哪个数据表?在原表中它也是缺失的吗?这样可以排除数据是不是在提取过程中出现了失误!
2.如果原表中该数据也是缺失的,那么会不会在收集信息的过程中出现了疏漏?请与业务部门沟通。
3.缺失信息的比例是多少?但缺失比例超过90%,该变量列可以删除。当缺失比例较低时,可以采用平均值或中位数填充。
二、如果清洗中发现是数据异常的问题
1.数据有明显违背常识的错误(格式错误、内容错误-数据含有文本);
2.数据中出现了离群值,是波动很大的数据;
3.用户自己填写所收集的数据(可信度不高);
4.逻辑错误的数据。
数据清洗不仅会花时间还需要分析师在清洗数据时投入更多的专注力与沟通,否则就会出错。
最后是数据整理:
1.对数据进行统一的格式化和命名规则处理。
2.对某些信息(异常数据)进行重新编码以满足后续的分析需求。
完