数据预处理
1. 去除唯一属性
- 唯一属性通常是一些id属性,这些属性并不能刻画样本自身的分布规律,所以简单地删除这些属性即可。
2. 处理缺失值
缺失值处理的三种方法:
- 直接使用含有缺失值的特征;
- 删除含有缺失值的特征(该方法在包含缺失值的属性含有大量缺失值而仅仅包含极少量有效值时是有效的);
- 缺失值补全。
常见的缺失值补全方法:均值插补、同类均值插补、建模预测、高维映射、多重插补、极大似然估计、压缩感知和矩阵补全。
3. 特征编码
- 特征二元化
特征二元化的过程是将数值型的属性转换为布尔值的属性,设定一个阈值作为划分属性值为0和1的分隔点。 - 独热编码(One-HotEncoding)
独热编码采用N位状态寄存器来对N个可能的取值进行编码,每个状态都由独立的寄存器来表示,并且在任意时刻只有其中一位有效。
独热编码的优点:能够处理非数值属性;在一定程度上扩充了特征;编码后的属性是稀疏的,存在大量的零元分量。
4. 数据标准化、正则化
- 数据标准化
数据标准化是将样本的属性缩放到某个指定的范围。 - 正则化
数据正则化是将样本的某个范数(如L1范数)缩放到到位1,正则化的过程是针对单个样本的,对于每个样本将样本缩放到单位范数。
5. 特征选择(降维)
- 从给定的特征集合中选出相关特征子集的过程称为特征选择。
- 进行特征选择的两个主要原因是:减轻维数灾难问题;降低学习任务的难度。
6. 稀疏表示和字典学习
- 字典学习:学习一个字典,通过该字典将样本转化为合适的稀疏表示形式。
- 稀疏编码:获取样本的稀疏表达。