pandas 数据处理

  • 一. 删除重复元素
  • 二. 映射
  • 三. 数据分析
  • 四. 异常值检测和过滤
  • 五. 数据聚合

一. 删除重复元素

  • duplicated(): 检测数据重复行,返回series,若为不是第一次出现则为 True ,否则为 False
  • drop_duplicates() : 删除重复行
    列名不能重复,否则报错;
df = pd.DataFrame(np.random.randint(0,2,size=(4,2)),
                   index=['张','李','王','张'],
                   columns=['js','python'])
print(df)
#    js  python
# 张   1       1
# 李   0       0
# 王   0       0
# 张   0       1

print(df.duplicated())
# 张    False
# 李    False
# 王     True
# 张    False
# dtype: bool

print(df.drop_duplicates())
#    js  python
# 张   1       1
# 李   0       0
# 张   0       1

print(df.drop_duplicates('js'))
#    js  python
# 张   1       1
# 李   0       0


二. 映射

1. replace():替换符合条件的值

参数:

  • to_replace:{‘替换的原数据’:‘替换的目标数据’}
  • value :替换的目标数据,多个数据替换为同一个时可采用
  • inplace
  • limit: 向前向后填充的最大限度
  • regex: 正则表达
  • method: ‘pad’, ‘ffill’, ‘bfill’, None 向前向后填充
df = pd.DataFrame(np.random.randint(0,2,size=(4,2)),
                   index=['张','李','王','张'],
                   columns=['js','python'])

print(df)
#    js  python
# 张   1       0
# 李   0       1
# 王   1       1
# 张   0       1

print(df.replace(to_replace=1,value=100))
#     js  python
# 张  100       0
# 李    0     100
# 王  100     100
# 张    0     100

print(df.replace({0:000,1:111}))
#     js  python
# 张  111       0
# 李    0     111
# 王  111     111
# 张    0     111
2. map():

map方法可以根据条件修改当前列,还可以映射新一列数据
map可以使用方法和lambda表达式,不能使用sum之类的函数
可以新建一列

df = pd.DataFrame(np.random.randint(0,2,size=(4,2)),
                   index=['张','李','王','张'],
                   columns=['js','python'])
print(df)
#    js  python
# 张   0       0
# 李   0       1
# 王   0       0
# 张   0       1

df['python'] = df['js'].map(lambda x:x+3)
print(df)
#    js  python
# 张   0       3
# 李   0       3
# 王   0       3
# 张   0       3

def judge(item):
    if(item>=1):
        return 'sucess'
    else: return 'fail'
df['python'] = df['js'].map(judge)
print(df)
#    js python
# 张   0   fail
# 李   0   fail
# 王   0   fail
# 张   0   fail

# 新增一列
df['c++'] = df['js'].map(lambda x:x+1)
print(df)
#    js python  c++
# 张   0   fail    1
# 李   0   fail    1
# 王   0   fail    1
# 张   0   fail    1
3. transform(): 与map类似,根据某种规则算法,进行批量修改
4. rename(): 替换索引
df = pd.DataFrame(np.random.randint(0,2,size=(4,2)),
                   index=['张','李','王','张'],
                   columns=['js','python'])
col = {'js':'c++'}
print(df.rename(columns=col))
#    c++  python
# 张    1       1
# 李    1       0
# 王    1       0
# 张    1       1

三. 数据分析

descibe() 函数

包含计数,平均值,最大最小值,标准方差

df = pd.DataFrame(np.random.randint(0,100,size=(3,2)),
                   index=['张','李','王'],
                   columns=['js','python'])
print(df)
#    js  python
# 张  78       4
# 李  79      84
# 王  34      37
print(df.describe())
#               js     python
# count   3.000000   3.000000   ---计数
# mean   63.666667  41.666667   ---平均值
# std    25.696952  40.203648   ---标准方差
# min    34.000000   4.000000
# 25%    56.000000  20.500000
# 50%    78.000000  37.000000
# 75%    78.500000  60.500000
# max    79.000000  84.000000

print(df.max())
# js        34
# python    26
# dtype: int32

print(df.max().js)
# 34

四. 异常值检测和过滤

df = pd.DataFrame(np.random.randint(0,100,size=(3,2)),
                 index=['张','李','王'],
                 columns=['js','python'])
print(df)
 js  python
# 张   9      26
# 李  39      39
# 王  92      66

print(df.std(axis=1))
# 张    12.020815
# 李     0.000000
# 王    18.384776
# dtype: float64

df1 = np.abs(df)>df.std()*3
df2 = df1.any(axis = 1)
print(df2)
# 张    False
# 李    False
# 王     True
# dtype: bool

print(df[df2])
#    js  python
# 王  92      66

df1 = np.abs(df)>df.std()*3 此句为本例异常检测的标准(其值大于标准方差的3倍)
检测结果:’王‘ 的成绩异常


五. 数据聚合

DataFrame.groupby()
实例:
对 item 列进行分组,求取分组下各列的最大值

df = pd.DataFrame({'item':['apple','bananla','orange','apple','bananla'],
                   'price':[10,20,30,40,50],
                   'number':[30,20,10,5,0]})
print(df)
#       item  price  number
# 0    apple     10      30
# 1  bananla     20      20
# 2   orange     30      10
# 3    apple     40       5
# 4  bananla     50       0

g = df.groupby('item')
print(g.max())
#          price  number
# item
# apple       40      30
# bananla     50      20

获取 item 分组下的 price 的平均值,返回为 series

print(g['price'].mean())
# item
# apple      25
# bananla    35
# orange     30
# Name: price, dtype: int64

将 price 的平均值 合并到原来的 dataframe中

price_mean = g['price'].mean()
price_mean = pd.DataFrame(price_mean)
price_mean.columns = ['price_mean']

print(pd.merge(df,price_mean,left_on='item',right_index=True))
#       item  price  number  price_mean
# 0    apple     10      30          25
# 3    apple     40       5          25
# 1  bananla     20      20          35
# 4  bananla     50       0          35
# 2   orange     30      10          30
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容