1.缺失值、异常值、重复值得处理
在数据清洗过程种,主要处理的是缺失值、异常值和重复值。所谓清洗,是对数据进行丢弃、填充、替换、去重等操作,实现去除异常、纠正错误、补足缺失的目的。
数据列缺失的4种处理方法:
1.丢弃
不适用采取丢弃的场景:数据集总体中存在大量的数据记录不完整情况且比例较大,例如超过10%。删除这些带有缺失值的记录意味着将会损失过多有用信息。或者带有缺失值的数据记录大量存在着明显的数据分布规律或者特征,例如带有缺失值的数据记录的目标标签主要集中在某一类或者几类,如果删除会使对应分类的数据样本丢失大量特征信息,导致模型过拟合或者分类不准确。
2.补全
2.1:统计法:使用均值、加权均值、中位数等方法补足;对于分类数据,使用类别众数最多的值补足。
2.2:模型法:更多时候我们会基于已有的其他字段,将缺失字段作为目标变量进行预测,从而得到最为可能的补全值。
2.3:专家补全
2.4:随机法,特殊值法,多重填补等。
3.真值转换法:
转换前:性别(男,女,未知)
转换后:性别男(值域1,0) 性别女(值域1,0),性别未知(值域1,0)
将一个变量变为3个变量。
4.不处理
常见的能够自动处理缺失值的模型包括:KNN,决策树和随机森林,神经网络和朴素贝叶斯,DBSCAN等。
忽略,缺失值不参与距离计算,例如KNN。
将缺失值作为分布的一种状态,并参与到建模过程,例如决策树。
不基于距离做计算,因此基于值得距离做计算,本身得影响就消除,例如DBSCAN.
对于缺失值得处理思路是先通过一定方法找到缺失值,然后分析缺失值在整个样本中的分布占比以及缺失值是否具有显著的无规律分布特征,然后考虑后续要使用的模型是否满足缺失值自动处理,最后决定采用哪种缺失值处理方法。