Python 知识回顾之 Pandas(1)

导入pandas
import pandas as pd

Pandas的数据结构

1.Series

Series是一种类似于一维数组的对象,由两部分组成

  • values: 一组数据(ndarry类型)
  • index: 相关的数据索引标签
1)Series的创建

(1)由列表或numpy数组创建
&emps;默认索引为0到N-1的整数型索引

data1 = [1, 2, 3, 4, 5]
s1 = Series(data=data1) # 索引为0-4

index = ["lucy","mery","tom","jack","tony"]
data = np.random.randint(0,100,size=5)
s3 = Series(data=data, index=index, name="Score",dtype=np.float)


image.png

(2)由字典创建

dic = { "lucy":60, "mery":80, "tom":76, "tony":92 }
Series(data=dic, index=["lucy","mery","nokey"])


image.png

字典的键会被自动设置为索引
如果显示指定index,index的优先级会高于字典的键

2)Series的索引和切片

可以使用中括号取单个索引(此时返回的是元素类型),或者中括号里一个列表取多个索引(此时返回的仍然是一个Series类型)。分为显示索引和隐式索引:

data = np.random.randint(0,100,size=5)
index = list("ABCDE")
s = Series(data=data, index=index)


image.png

(1)显式索引:

1.字典访问
s["A"] ---> 12

2.属性访问
s.A ---> 12

3.Series访问
s.loc["A"] ---> 12

4.多元素访问,使用列表做索引
s.loc[["A", "B"]]
---> A  12
  B  82
  dtype: int32

5.Bool列表访问
s.loc[[True, False,True, False,False]]
---> A  12
  C   6
  dtype: int32

6.使用values属性获取series对象的值
s[s.values > 60]
---> B  82
  E  80
  dtype: int32

s.loc[s.values > s.values.mean()]
---> B  82
  D  49
  E  80
  dtype: int32

(2)隐式索引

1.数组访问
s[0]  ---> 12

2.series隐式访问
s.iloc[0] ---> 12

s.iloc[[0,1,3,1]]
---> A  12
  B  82
  D  49
  B  82
  dtype: int32

切片

显式索引切片
s.loc["A":"C"]
---> A  12
  B  82
  C  6
  dtype: int32

隐式索引切片(左闭右开)
s.iloc[0:2]
---> A  12
  B  82
  dtype: int32

3)Series 的属性
  • s.shape  形状
  • s.size  长度
  • s.index  索引
  • s.values  值
  • s.head(n)  查看前n个值
  • s.tail(n)   查看后n个值

可以使用pd.isnull(),pd.notnull(),或自带isnull(),notnull()函数检测缺失数据

s[s.notnull()] # 检测空值
s.isnull().any() # 检查是否存在空值

  • s.name  显示名称
  • s.sort_values()   根据值排序
  • s.sort_index()   根据索引排序
  • s.value_counts()  统计每个值出现次数

Series的运算:
在运算中自动对齐不同索引的数据,如果索引不对应,补NaN

  • s.add()  加
  • s.sub()  减
  • s.mul()  乘
  • s.div()  除

2.DataFrame

DataFrame是一个【表格型】的数据结构,可以看做是【由Series组成的字典】(共用同一个索引)。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。

  • 行索引:index
  • 列索引:columns
  • 值:values(numpy的二维数组)

1)DataFrame的创建

最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称,以字典的值(一个数组)作为每一列。

此外,DataFrame会自动加上每一行的索引(和Series一样)。

同Series一样,若传入的列与字典的键不匹配,则相应的值为NaN。

index = ["lucy","mery","tom","jack","rose","tony"]
columns = ["python","java"]
data = np.random.randint(0,100,size=(6,2))
df = DataFrame(data=data, index=index, columns=columns)

image.png

以字典的形式构造dataframe

dic = {
"python":np.random.randint(0,100,size=6),
"java":np.random.random(size=6),
"name":["lucy","mery","tom","jack","rose","tony"]
}
df2 = DataFrame(data=dic)

image.png
从文件中读取DataFrame对象

df = pd.read_excel("文件名.xlsx"sheet_name="partitions",header=1, index_col=None)

  • sheet_names 制定sheet的索引或名字
  • header 指定哪些行作为列标签读取
  • index_col 指定哪些列作为行标签读取
使用Series构造DataFrame

python = Series(data=np.random.randint(0,100,size=5), index=["lucy","mery","tom","jack","rose"], name="Python")
DataFrame(data=python)

image.png

2)DataFrame的索引

dic = {
"python":np.random.randint(0,100,size=6),
"java":np.random.random(size=6),
"name":["lucy","mery","tom","jack","rose","tony"]
}
df = DataFrame(data=dic)


image.png

DataFrame访问
df.loc[2,"name"] = "JAREY123"


image.png

字典访问
df["name"]
属性访问
df.name


image.png

以列表作为索引访问,返回的是一个DataFrame对象
df[["java","python"]]


image.png

隐式访问,是把dataFrame看成普通的二维数组,所以访问逻辑与二维数组相同
df.iloc[:,[0,1]]


image.png

显式索引访问
df.loc[:,"name"]


image.png

(1) 对列进行索引

  • 通过类似字典的方式
  • 通过属性的方式

可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引,且name属性也已经设置好了,就是相应的列名。

(2) 对行进行索引

  • 使用.ix[]来进行行索引
  • 使用.loc[]加index来进行行索引
  • 使用.iloc[]加整数来进行行索引

同样返回一个Series,index为原来的columns。

(3) 对元素索引的方法

  • 使用列索引
  • 使用行索引(iloc[3,1]相当于两个参数;iloc[[3,3]] 里面的[3,3]看做一个参数)
  • 使用values属性(二维numpy数组)

3)DataFrame的运算

(1) DataFrame之间的运算

同Series一样:
在运算中自动对齐相同索引的数据
如果索引不对应,则补NaN

Python 操作符与pandas操作函数的对应表:

Python Operator Pandas Method(s)
+ add()
- sub(), subtract()
* mul(), multiply()
/ truediv(), div(), divide()
// floordiv()
% mod()
** pow()

(2) Series与DataFrame之间的运算

使用Python操作符:以行为单位操作(参数必须是行),对所有行都有效。(类似于numpy中二维数组与一维数组的运算,但可能出现NaN)

使用pandas操作函数:

  • axis=0:以列为单位操作(参数必须是列),对所有列都有效。
  • axis=1:以行为单位操作(参数必须是行),对所有行都有效。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 229,619评论 6 539
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 99,155评论 3 425
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 177,635评论 0 382
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 63,539评论 1 316
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 72,255评论 6 410
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 55,646评论 1 326
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 43,655评论 3 444
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,838评论 0 289
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 49,399评论 1 335
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 41,146评论 3 356
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 43,338评论 1 372
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,893评论 5 363
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,565评论 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,983评论 0 28
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 36,257评论 1 292
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 52,059评论 3 397
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 48,296评论 2 376

推荐阅读更多精彩内容