《pandas入门》之数据结构

前言

pandas有两种数据结构,其中主要得是Series和DateFrame,本文主要讲解和记录这两种种数据的结构和操作。

第一种结构:Series

Series是一种类似一维数组的数据结构,它由一组数据和一组相对应的索引组成,Series的创建形式是Series(list,index=),需要显式的指出index,若不显式指出index ,则自动创建0到N-1的索引。

obj_1 = pd.Series([1,2,3,4])
print obj_1
print type(obj_1)     
print obj_1.values    
print type(obj_1.values )    
print obj_1.index     
输出:
0    1
1    2
2    3
3    4
dtype: int64
<class 'pandas.core.series.Series'>
[1 2 3 4]
<type 'numpy.ndarray'>
RangeIndex(start=0, stop=4, step=1)

obj_2 = pd.Series([1,2,3,4],index=["a","b","c","d"])
print obj_2
print obj_2.values    #[1 2 3 4]
print obj_2.index     
#Index([u'a', u'b', u'c', u'd'], dtype='object')
输出:
a    1
b    2
c    3
d    4
dtype: int64

[1 2 3 4]
Index([u'a', u'b', u'c', u'd'], dtype='object')

Series还有一些其他的数据特性:

# Series 索引可以修改但是值不能修改
obj_22 = pd.Series([1,2,3,4],index=["a","b","c","d"])
obj_22.index = ['e','f','g','h']
print obj_22.index
输出:
Index([u'e', u'f', u'g', u'h'], dtype='object')

# Series对象还有name属性,相当于是增加列名
obj_22.name = "population"
obj_22.index.name = "state"
print obj_22
输出:
state
e    1
f    2
g    3
h    4
Name: population, dtype: int64

# 索引操作符合numpy数组的运算
print obj_2["a"]
print obj_2 * 2
输出:
1
a    2
b    4
c    6
d    8
dtype: int64

# 注意以下操作,直接在索引位置筛选值
print obj_2[obj_2>2]
输出:
c    3
d    4
dtype: int64

# 因为Series 可以看做是一个定长的有序字典,因为它是一个索引值到数据值的映射
print  'a' in obj_2    
print  'e' in obj_2
输出:
True
False

# 所以可以直接用dict建立Series,若不指定索引,则使用字典的key,
# 若指定则使用指定值,指定中索引重复的输出值,索引没值的则输出NAN

sdate = {"A":1000,"B":2000,"C":3000,"D":4000}
obj_3 = pd.Series(sdate)
print obj_3
输出:
A    1000
B    2000
C    3000
D    4000

stats = {"a","b","C","D"}
obj_4 = pd.Series(sdate,index=stats)
print obj_4
输出:
a       NaN
C    3000.0
b       NaN
D    4000.0
dtype: float64

# pandas 中 isnull 和 notnull 函数用来检测缺失值
print obj_4.isnull
print obj_4.notnull
输出:
<bound method Series.isnull of 
a       NaN
C    3000.0
b       NaN
D    4000.0
dtype: float64>
<bound method Series.notnull of 
a       NaN
C    3000.0
b       NaN
D    4000.0
dtype: float64>

# 推荐用以下的判断方式
print pd.isnull(obj_4)
print pd.notnull(obj_4)
输出:
a     True
C    False
b     True
D    False
dtype: bool
a    False
C     True
b    False
D     True
dtype: bool

第二种结构 DataFrame

DataFrame是一个表格型的数据结构,它的数据存储在一个或多个的二维模块中,它含有一组有序的列数据,可以理解为列名,每列的数据类型可以不一样,所以,DataFrame有行索引和列索引两种检索方式,这两种操作是平衡的。

#创建
data = {"name":["zhang","li","wang"],"num":[1,2,3],"value":[1.5,2.0,3.0]}
fram = pd.DataFrame(data)
输出
    name  num  value
0  zhang    1    1.5
1     li    2    2.0
2   wang    3    3.0



# 可以指定列序列 columns可以理解为列名
fram_1 = pd.DataFrame(data=data,columns=["name","value","num"],index=["a","b","c"])
#输出:
    name  value  num
a  zhang    1.5    1
b     li    2.0    2
c   wang    3.0    3


# 当传入的列在数据中找不到,则显示NAN
fram_2 = pd.DataFrame(data=data,columns=["name","value","num","test"],index=["a","b","c"])
#输出:
    name  value  num test
a  zhang    1.5    1  NaN
b     li    2.0    2  NaN
c   wang    3.0    3  NaN

# 可以把列数据(列名)理解为索引,获得一个Series
# 列索引皆可看做是DataFrame的属性输出数据
fram_2.columns   # 输出列数据
#输出:
Index([u'name', u'value', u'num', u'test'], dtype='object')

fram_2["value"]
#输出
a    1.5
b    2.0
c    3.0
Name: value, dtype: float64

fram_2.name
#输出
a    zhang
b       li
c     wang
Name: name, dtype: object


# 可以给某列赋值,当该列不存在的时候增加该列,
fram_2["test"] = 16.5
#输出:
    name  value  num  test
a  zhang    1.5    1  16.5
b     li    2.0    2  16.5
c   wang    3.0    3  16.5

del fram_2["test"]
#输出:
    name  value  num
a  zhang    1.5    1
b     li    2.0    2
c   wang    3.0    3

# 行索引不能直接获取,需要使用索引字段
# loc只能通过索引值获取,而iloc是通过行号来获取,
# ix是将两者结合起来,即通过行号又通过索引值来获取
print fram_2.loc["b"]
print fram_2.iloc[2]
print fram_2.ix["b"]
#输出
name     li
value     2
num       2
Name: b, dtype: object
name     wang
value       3
num         3
Name: c, dtype: object
name     li
value     2
num       2
Name: b, dtype: object


fram_2.index.name = "row"
fram_2.columns.name = "col"
#输出
col   name  value  num
row                   
a    zhang    1.5    1
b       li    2.0    2
c     wang    3.0    3

# 对于嵌套的字典数据类型,外层字典的键是列索引,内层键作为行索引
op = {"A":{"a":100,"b":200},"B":{"a":111,"c":222}}
fram_3 = pd.DataFrame(op)
输出:
       A      B
a  100.0  111.0
b  200.0    NaN
c    NaN  222.0

一生顺利,一生被爱。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,427评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,551评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,747评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,939评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,955评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,737评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,448评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,352评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,834评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,992评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,133评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,815评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,477评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,022评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,147评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,398评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,077评论 2 355