注:数据导入见:Python学习之数据导入
1、读取数据(X:独立数据、Y:联动数据)
#导入包
import numpy as np #矩阵
import matplotlib.pyplot as plt #数据展示、可视化
import pandas as pd #数据预处理
#import dataset
datasets = pd.read_csv('Data.csv')
#missing data 丢失数据处理 1、去最大值 最小值,2、平均数 3、删除
X = datasets.iloc[:,:-1].values #取出独立变量
Y = datasets.iloc[:,3].values
#数据预处理,补充缺失数据
from sklearn.preprocessing import Imputer
#mean 缺失的用平均数填充
#怎么处理数据
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
#处理哪里的数据
imputer = imputer.fit( X[:, 1:3])
X[:,1:3] = imputer.transform( X[:,1:3])
#查看补充缺失数据之后的数据
X
解释:“imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0):
NaN:缺失数据
strategy:缺失数据处理方式,平均值,
If “mean”, then replace missing values using the mean along the axis.
If “median”, then replace missing values using the median along the axis.
If “most_frequent”, then replace missing using the most frequent value along the axis.
axis:
Ifaxis=0, then impute along columns.Ifaxis=1, then impute along rows.
2、查看补充缺失数据之后的数据