1.Z-Score标准化
Z-Score标准化后的数据平均值为0,方差为1.
对应的api:
(1)scipy.stats.zscore
(2) sklearn.preprocessing.StandardScaler()
2.min-max标准化
将数值缩放到0-1之间
对应的api:
sklearn.preprocessing.MinMaxScaler()
3.独热编码,one-hot-encoding
将不连续存在的状态,如电路分为正常,机械故障,电路故障,分别用0表示正常,1代表机械故障,2代表电路故障。但是机器学习认为2代表电路故障比1代表机械故障更‘大’,从而影响分析结果。
方法:pd.get_dummies()
4.数据离散化
1-10 岁为少儿,11-20 岁为少年,21-30 岁为青年等,这就可以被看作是数据离散化的过程。