Pandas_3 处理缺失值、数据透视表以及apply的用法

1.处理缺失值

Pandas使用NaN(Not a Number)来表示缺失值

1.1判断是否存在缺失值以及缺失值的个数

判断:data.isnull()pd.isnull(data),若只判断某一列时,data.isnull(data['column'])pd.isnull(data["column"]),推荐第二种;

求缺失值的个数:这块一直不懂,贴上代码,望以后能想明白吧(衰)

age = data["Age"]
age_is_null = pd.isnull(data['Age'])
age_null_true = age[age_is_null]
age_null_count = len(age_null_true)
print(age_null_count)

1.2 过滤缺失值

data.dropna()-------- dropna 在默认情况下会删除包含缺失值的行;

当然,在你传入参数axis = 1时,可以删除包含缺失值的列;

当传入参数how = "all"时,dropna是删除所有值为NA的行;

1.3 补全过滤值

你有时候可能需要以多种方式来补全缺失值,而并非是过滤掉缺失值,那在大多数情况下,主要使用 fillna 方法来补全缺失值。调用 fillna 时,可以用一个常数来代替缺失值,例如:

data.fillna(1)/ data.fillna(0) ----------使用常数1或0 来替代;

当然你也可以为不同的列设定不同的值,这是可以传入一个字典,例如:

data.fillna({"column1":1,"column2":0}) --------- 对column1列使用1来替代缺失值,而cloumn2列使用0来替代;

fillna 更厉害的地方在于可以用于插值,通过传入参数 method = "ffill" 或 method = "bfill" ,分别是向前插值和向后插值,默认是 'ffill'; 不仅如此,你也可以用Series的平均值或中位数来填充缺失值,例如:

data.fillna(data["Age"].mean())

总结:

检查过滤值 过滤缺失值 补全缺失值
pd.isnull(data) data.dropna() data.fillna()

2.数据透视表------pivot_table

最简单的透视表必须有一个数据帧和一个索引。在本例中,我们将使用“Pclass”列作为我们的索引

pd.pivot_table(data,index = 'Pclass')

此外,你也可以设置多个索引,例如:

pd.pivot_table(data,index = ["Pclass","Sex"])

如果我只想显示‘Age’和‘Fare’列,其他列于我而言是没用的,这时可以使用values来显示我们只关心的列

pd.pivot_table(data,index = ["Pclass","Sex"],values = ['Age','Fare'])

上面列表中的数值代表了相应索引下的平均值(默认的),当然,我们自已也可以设置其他的聚合值,例如,求和或计数,这时需要使用聚合参数 aggfunc,同时需要导入numpy

pd.pivot_table(data,index = ['Pclass','Sex'],values = ['Age','Fare'],aggfunc = np.sum)

进行到这一步,我发现我只想对'Fare'列进行求和,而'Age'列,我想要求平均值,那该怎么办呢?

这时你需要向aggfunc传递一个字典,告诉pandas哪一列求平均,哪一列是求和

pd.pivot_table(data,index = ['Pclass','Sex'],values = ['Age','Fare'],aggfunc = {'Age':np.mean,'Fare':np.sum})

不过,如果我想查看一些总和数据呢?“margins=True”就可以为我们实现这种功能

pd.pivot_table(data,index = ['Pclass','Sex'],values = ['Age','Fare'],aggfunc = {'Age':np.mean,'Fare':np.sum},margins=True)

3. apply的用法

用途:

当一个函数的参数存在于一个元组或者一个字典中时,用来间接的调用这个函数,并将元组或者字典中的参数按照顺序传递给参数.

apply的中文意思是应用,那在python中作为函数我想也是作为同样的意思,其函数语法为apply(function,args),其中funcion为定义的函数,args为需向function中传入的一系列参数

apply的返回值就是function的返回值。

python中的DataFrame作为一个元组,其行或列就作为函数的参数。

下面举例说明

import numpy as np
import pandas as pd
data = pd.DataFrame(np.random.randn(4,4),columns = list('abcd'),index = ['ind1','ind2','ind3','ind4'])
data

结果为:

            a           b           c           d
ind1    0.177938    -0.877354   1.158941    -0.825953
ind2    -0.506917   -0.060584   -0.445731   -0.860620
ind3    -0.985207   0.708244    0.151892    0.721318
ind4    -1.214316   -0.844392   -1.283502   -1.329589
t1 = data.apply(lambda x:x.max()-x.min())
t1
a    1.392254
b    1.585598
c    2.442443
d    2.050907
dtype: float64

或使用参数axis = 1,对行进行操作

t2 = data.apply(lambda x:x.max()-x.min(),axis = 1)
t2
ind1    2.036294
ind2    0.800036
ind3    1.706525
ind4    0.485197
dtype: float64

若想要作用于数据中的每一个元素,则需要使用函数 applymap
将DataFrame中的每个元素保留两位有效数字

f = lambda x: '%.2f' % x
data.applymap(f)
          a       b       c       d
ind1    0.18    -0.88   1.16    -0.83
ind2    -0.51   -0.06   -0.45   -0.86
ind3    -0.99   0.71    0.15    0.72
ind4    -1.21   -0.84   -1.28   -1.33

这里之所以使用applymap是因为,Series有一个元素级函数的map方法。而dataframe只有applymap.

t3 = data['a'].map(lambda x:'%.1f' %x)
t3
ind1     0.2
ind2    -0.5
ind3    -1.0
ind4    -1.2
Name: a, dtype: object
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容

  • pyspark.sql模块 模块上下文 Spark SQL和DataFrames的重要类: pyspark.sql...
    mpro阅读 9,451评论 0 13
  • 2019/2/23 Blue文 读书打卡 书名:《思考,快与慢》 作者:丹尼尔.卡曼尼 章节:第13章〈焦虑情绪与...
    Blue文阅读 277评论 1 4
  • 宝石的迷人之处,令人心醉,我已被导游顺利催眠,情绪高涨,但我并没有行动。导游在车上的表达,非常具有催眠效果,几千块...
    安喜喜阅读 588评论 0 1
  • 2017.05.15. 星期一 雨天 今天下午我去上学的第一节课是数学课,老师让我们做作业,作业做完了正好就下课了...
    王紫杨阅读 779评论 1 0
  • 什么是知识?知识就是已经被发现和证明的规律,它是确定的,不需要你通过自身的成功、挫败去验证,然后恍然大悟的那些规律...
    idyllis阅读 213评论 0 0