《Python数据分析与数据化运营 第2版》读书笔记
一、 数据清洗
缺失值处理
a. 补全:统计法补全(可以用均值、中位数、指定值填充)、模型法补全、专家补全等
b. 真值转换:根本观点是,我们承认缺失值的存在,并且把数据缺失也作为数据分布规律的一部分,将变量的实际值和缺失值都作为输入维度参与后续数据处理和模型计算中。但是变量的实际值可以作为变量值参与模型计算,而缺失值通常无法参与运算,因此需要对缺失值进行真值转换。
c. 不处理
d. 丢弃:尽量不要直接删除,会损失信息异常值处理
通过一些方法,如计算Z_score(观测值减去均值后除以标准差)判断异常值,后续根据实际业务情况判断要如何处理异常值。重复值处理
根据业务实际判断重复值产生原因,以及是否需要剔除。
二、 分类数据和顺序数据转换为标志变量
将非数值型数据转换为数值型数据的最佳方法是:将所有分类或顺序变量的值域从一列多值的形态转换为多列只包含真值的形态,其中的真值可用True、False或0、1的方式来表示。这种标志转换的方法有时候也称为真值转换。
为什么不能直接用数字来表示不同的分类和顺序数据,而一定要做标志转换?这是因为在用数字直接表示分类和顺序变量的过程中,无法准确还原不同类别信息之间的信息差异和相互关联性
真值转换前后对比