Python 知识回顾之 Pandas(1)

导入pandas
import pandas as pd

Pandas的数据结构

1.Series

Series是一种类似于一维数组的对象，由两部分组成

values: 一组数据（ndarry类型）
index: 相关的数据索引标签

1)Series的创建

(1)由列表或numpy数组创建
&emps;默认索引为0到N-1的整数型索引

data1 = [1, 2, 3, 4, 5]
s1 = Series(data=data1) # 索引为0-4

index = ["lucy","mery","tom","jack","tony"]
data = np.random.randint(0,100,size=5)
s3 = Series(data=data, index=index, name="Score",dtype=np.float)

image.png

(2)由字典创建

dic = { "lucy":60, "mery":80, "tom":76, "tony":92 }
Series(data=dic, index=["lucy","mery","nokey"])

image.png

字典的键会被自动设置为索引
如果显示指定index，index的优先级会高于字典的键

2）Series的索引和切片

可以使用中括号取单个索引（此时返回的是元素类型），或者中括号里一个列表取多个索引（此时返回的仍然是一个Series类型）。分为显示索引和隐式索引：

data = np.random.randint(0,100,size=5)
index = list("ABCDE")
s = Series(data=data, index=index)

image.png

(1)显式索引：

1.字典访问
s["A"] ---> 12

2.属性访问
s.A ---> 12

3.Series访问
s.loc["A"] ---> 12

4.多元素访问，使用列表做索引
s.loc[["A", "B"]]
---> A 12
B 82
dtype: int32

5.Bool列表访问
s.loc[[True, False,True, False,False]]
---> A 12
C 6
dtype: int32

6.使用values属性获取series对象的值
s[s.values > 60]
---> B 82
E 80
dtype: int32

s.loc[s.values > s.values.mean()]
---> B 82
D 49
E 80
dtype: int32

(2)隐式索引

1.数组访问
s[0] ---> 12

2.series隐式访问
s.iloc[0] ---> 12

s.iloc[[0,1,3,1]]
---> A 12
B 82
D 49
B 82
dtype: int32

切片

显式索引切片
s.loc["A":"C"]
---> A 12
B 82
C 6
dtype: int32

隐式索引切片（左闭右开）
s.iloc[0:2]
---> A 12
B 82
dtype: int32

3)Series 的属性

s.shape 形状
s.size 长度
s.index 索引
s.values 值
s.head(n) 查看前n个值
s.tail(n) 查看后n个值

可以使用pd.isnull()，pd.notnull()，或自带isnull(),notnull()函数检测缺失数据

s[s.notnull()] # 检测空值
s.isnull().any() # 检查是否存在空值

s.name 显示名称
s.sort_values() 根据值排序
s.sort_index() 根据索引排序
s.value_counts() 统计每个值出现次数

Series的运算：
在运算中自动对齐不同索引的数据，如果索引不对应，补NaN

s.add() 加
s.sub() 减
s.mul() 乘
s.div() 除

2.DataFrame

DataFrame是一个【表格型】的数据结构，可以看做是【由Series组成的字典】（共用同一个索引）。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。

行索引：index
列索引：columns
值：values（numpy的二维数组）

1)DataFrame的创建

最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称，以字典的值（一个数组）作为每一列。

此外，DataFrame会自动加上每一行的索引（和Series一样）。

同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN。

index = ["lucy","mery","tom","jack","rose","tony"]
columns = ["python","java"]
data = np.random.randint(0,100,size=(6,2))
df = DataFrame(data=data, index=index, columns=columns)

image.png

以字典的形式构造dataframe

dic = {
"python":np.random.randint(0,100,size=6),
"java":np.random.random(size=6),
"name":["lucy","mery","tom","jack","rose","tony"]
}
df2 = DataFrame(data=dic)

image.png

从文件中读取DataFrame对象

df = pd.read_excel("文件名.xlsx"sheet_name="partitions",header=1, index_col=None)

sheet_names 制定sheet的索引或名字
header 指定哪些行作为列标签读取
index_col 指定哪些列作为行标签读取

使用Series构造DataFrame

python = Series(data=np.random.randint(0,100,size=5), index=["lucy","mery","tom","jack","rose"], name="Python")
DataFrame(data=python)

image.png

2）DataFrame的索引

dic = {
"python":np.random.randint(0,100,size=6),
"java":np.random.random(size=6),
"name":["lucy","mery","tom","jack","rose","tony"]
}
df = DataFrame(data=dic)

image.png

DataFrame访问
df.loc[2,"name"] = "JAREY123"

image.png

字典访问
df["name"]
属性访问
df.name

image.png

以列表作为索引访问,返回的是一个DataFrame对象
df[["java","python"]]

image.png

隐式访问，是把dataFrame看成普通的二维数组，所以访问逻辑与二维数组相同
df.iloc[:,[0,1]]

image.png

显式索引访问
df.loc[:,"name"]

image.png

(1) 对列进行索引

通过类似字典的方式
通过属性的方式

可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。

(2) 对行进行索引

使用.ix[]来进行行索引
使用.loc[]加index来进行行索引
使用.iloc[]加整数来进行行索引

同样返回一个Series，index为原来的columns。

(3) 对元素索引的方法

使用列索引
使用行索引(iloc[3,1]相当于两个参数;iloc[[3,3]] 里面的[3,3]看做一个参数)
使用values属性（二维numpy数组）

3）DataFrame的运算

（1） DataFrame之间的运算

同Series一样：
在运算中自动对齐相同索引的数据
如果索引不对应，则补NaN

Python 操作符与pandas操作函数的对应表：

Python Operator	Pandas Method(s)
`+`	`add()`
`-`	`sub()`, `subtract()`
`*`	`mul()`, `multiply()`
`/`	`truediv()`, `div()`, `divide()`
`//`	`floordiv()`
`%`	`mod()`
`**`	`pow()`

（2） Series与DataFrame之间的运算

使用Python操作符：以行为单位操作（参数必须是行），对所有行都有效。（类似于numpy中二维数组与一维数组的运算，但可能出现NaN）

使用pandas操作函数：

axis=0：以列为单位操作（参数必须是列），对所有列都有效。
axis=1：以行为单位操作（参数必须是行），对所有行都有效。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 229,619评论 6赞 539
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 99,155评论 3赞 425
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 177,635评论 0赞 382
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 63,539评论 1赞 316
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 72,255评论 6赞 410
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 55,646评论 1赞 326
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 43,655评论 3赞 444
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 42,838评论 0赞 289
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 49,399评论 1赞 335
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 41,146评论 3赞 356
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 43,338评论 1赞 372
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 38,893评论 5赞 363
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 44,565评论 3赞 348
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 34,983评论 0赞 28
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 36,257评论 1赞 292
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 52,059评论 3赞 397
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 48,296评论 2赞 376

Python 知识回顾之 Pandas(1)

Pandas的数据结构

1.Series

1)Series的创建

2）Series的索引和切片

切片

3)Series 的属性

2.DataFrame

1)DataFrame的创建

从文件中读取DataFrame对象

使用Series构造DataFrame

2）DataFrame的索引

3）DataFrame的运算

推荐阅读更多精彩内容