登录注册写文章

python数据处理

python数据处理

重复值处理

drop_duplicate

缺失值

1.补全

2.删除行

dropna

读取数据时可以指定某些值为Null， na_values = ['a' , 'b']

isNA=df.isnull()

df[isNA[['key']].any(axis=1)]

df.fillna('value')

3.不处理

空值

lstrip清左边

rstrip清右边

strip清两边

字段抽取

slice(start, stop) 前闭后开区间

五.字段拆分

df['name'].str.split(' ', 1, True)

六.记录抽取

dataframe[condition]

逻辑运算，数字比较，字符串匹配

随机抽样

DataFrame.sample()

记录合并

concat([df1, df2])

字段合并

先df=df.astype(str)再+

字段匹配

merge等价于excel的vlookup，数据库的join

简单计算

增加一列必须用df['col_name']

标准化

scale到0-1，量纲统一

分组

cut(series=待分组数据, bins=间隔, right=开闭区间, label=标签)

时间处理

pd.to_datetime

strftime/strptime

dt.property抽取某一个

时间抽取

df.ix[]

df[condition

虚拟变量

离散特征编码pandas.get_dummies

最后编辑于：2017.12.08 07:20:11

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Python数据处理总结
Python可以很好地完成预处理任务，本文对python常用的numpy & pandas做一些总结。 1. 文本...
ShuiLocked阅读 1,795评论 0赞 4
数据分析2 - 数据导入及处理
数据存在的形式文件：csv, excel, txt…… 数据库：mysql, access, sql serve...
WesleyLien阅读 3,583评论 0赞 3
Python数据处理
1.去重 data.drop_duplicates() 默认保留第一个值，take_last=True 返回最后一...
耳朵和爪子阅读 611评论 0赞 0
三行诗
我送你三行情诗，你回我两行泪流，请许我一世情深
不削皮的小土豆阅读 264评论 0赞 1
我的简书收藏集
自己收藏的一些文章，有的是直接拿来用，有的是作为备用，有些是大神的经验，本人菜鸟一枚，正在汲取营养！工作面试非技...
翼须付出阅读 459评论 0赞 8

赞1赞

赞赏

手机看全文