python数据处理

重复值处理

drop_duplicate

缺失值

1.补全

2.删除行

dropna

读取数据时可以指定某些值为Null, na_values = ['a' , 'b']

isNA=df.isnull()

df[isNA[['key']].any(axis=1)]

df.fillna('value')

3.不处理

空值

lstrip清左边

rstrip清右边

strip清两边

字段抽取

slice(start, stop) 前闭后开区间

五.字段拆分

df['name'].str.split(' ', 1, True)

六.记录抽取

dataframe[condition]

逻辑运算,数字比较,字符串匹配

随机抽样

DataFrame.sample()

记录合并

concat([df1, df2])

字段合并

先df=df.astype(str)再+

字段匹配

merge等价于excel的vlookup, 数据库的join

简单计算

增加一列必须用df['col_name']

标准化

scale到0-1, 量纲统一

分组

cut(series=待分组数据, bins=间隔, right=开闭区间, label=标签)

时间处理

pd.to_datetime

strftime/strptime

dt.property抽取某一个

时间抽取

df.ix[]

df[condition

虚拟变量

离散特征编码pandas.get_dummies

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容