数据特征预处理,数据降维
处理方法: 1,数值型数据 : 标准缩放 (1)归一化
(2)标准化
(3)缺失值
2, 类别型数据 : one-hot 编码
3,时间类型 : 时间的切分
下面是归一化,标准化,缺失值,(这是小编的笔记)
归一化:通过对原始数据进行转换,把数据映射到,0,1之间。(其实就是把复杂的数据通过公式算法变成简单的0~1之间。)
标准化:通过对原始数据进行转换,把数据转换成均值为0,方差为1的范围。(方差考量数据的稳定数据的稳定性,如果方差为零,表示数据的值是一样的)
#导入包
from sklearn.preprocessingimport StandardScaler
import numpyas np
from sklearn.imputeimport SimpleImputer
def sdandar():
"""
标准化处理
:return: None
"""
#实例化
bzh = StandardScaler()
data = bzh.fit_transform([[1,-1,3],[2,4,2],[4,6,-1]])
print(data)
return None
def inputer():
"""
标准化处理
:return: None
"""
#实例化
qsz = SimpleImputer(strategy='mean')
data = qsz.fit_transform([[1,-1,3],[np.nan,4,2],[4,6,-1]])
print(data)
return None
if __name__ =="__main__":
inputer()
数据的降维:(改变特征的数量)
特征选择的原因:冗余——部分特征的相关度高,容易消耗计算机性能
噪声——部分特征对与预测结果有影响
特征选择的主要方法:Filter过滤式,Embedded嵌入式,Wrapper包裹式
PCA:本质——PCA是一种分析,简化数据集的技术
目的——是数据维数压缩,尽可能降低数据的维数,这样会损失少量的信息
作用——可以削减回归分析或聚类分析中的特征数量
简而言之:小编的理解是,数据特征预处理和降维的核心是提炼数据,去除水分,提高计算机性能的利用。