1.分析df['taixin']
# 用describe函数对数据快速统计汇总
df['taixin'].describe()
我们希望每一个数据都是float类型或者int类型,如图1-2。可以非常快速的统计出这一列的均值、最大最小值等等。如果之前没有处理好出现了文本,则结果如图1-1所示。
【用distplot函数看数据】
#seaborn的distplot()集合了matplotlib的hist()与核函数估计kdeplot的功能
sns.distplot(df['taixin'])
plt.show()
2.几种简单填充缺失值的方法
【固定值填充】
#都填90
df['taixin'] = df['taixin'].fillna('90')
【均值填充】
#一定要保证其余数据的都是int或float类型
df['taixin'] = df['taixin'].fillna(df['taixin'] .mean())
【众数填充】
#一定要保证其余数据的都是int或float类型
df['taixin'] = df['taixin'].fillna(df['taixin'] .mode())
【上下数据填充】
#用前一个非缺失值填充
df['taixin'] = df['taixin'].fillna(method='pad')
#用后一个非缺失值填充
df['taixin'] = df['taixin'].fillna(method='bfill')
【插值法填充】
#前后非缺失值的均值填充
df['taixin'] = df['taixin'].interpolate()
今天先到这,日后慢慢补充