114、pandas的DataFrame

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。
DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。跟他类似的数据结构相比,DataFrame面向行和列的操作基本上是平衡的。
DataFrame中的数据是以一个或多个二维块存放的(并不像列表、字典或别的一维数据结构)。

构建DataFrame:由一个等长列表或NumPy数组组成的字典构建。比如以广东、山东、河南三省在2013和2016的常住人口为例:
1.png

从结果可以看出,DataFrame会自动加上索引(跟Series一样),且全部列会被有序排列。
如果指定了列序列,则DataFrame的列会按照指定顺序进行排列:


2.png

DataFrame跟Series一样,如果传入的列在数据中找不到,就会产生NA值:
3.png

可以通过类似字典标记的方式或属性的方式,将DataFrame的列获取为一个Series:
4.png

从上面的例子可以看出,返回的Series拥有原DataFrame相同的索引,且name属性也被相应地设置好。

除此以外,行也可以通过位置或名称的方式进行获取,比如使用索引字段ix:
5.png

从结果上看,.ix已不推荐使用, 建议使用.loc(基于标签的索引)和.iloc(位置索引):
6.png

列可以通过赋值的方法进行修改。例如给空的“growth rate”列附上一个标量或一组值:
7.png

将列表或数组赋值给某个列时,其长度必须跟DataFrame的长度相匹配。如果赋值的是一个Series,就会精确匹配DataFrame的索引,所有的空位都将被填上缺失值NaN:
8.png

为不存在的列赋值会创建出一个新列。关键字del用于删除列:
9.png

注意:Series会直接修改源DataFrame上的数据。
另一种数据形式:嵌套字典(字典的字典)

如果将嵌套字典传给DataFrame,会把外层字典的键作为列,内层键作为行索引,还可以对结果进行转置。
1.png

内层字典的键会被合并、排序以形成最终的索引。如果显式指定索引,则按指定的排序:
2.png

由Series组成的字典:
3.png

下面列出了DataFrame构造函数所能接受的各种数据:
4.png

设置DataFrame的index和columns的name属性:
5.png

设置values属性,以二维ndarray的形式返回DataFrame中的数据:


6.png

如果DataFrame各列的数据类型不同,则值数组的数据类型会选用能兼容所有列的数据类型:
7.png

索引对象
pandas的索引对象负责管理轴标签和其他元素数据(比如轴名称等)。构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会转换成一个Index:
1.png

Index对象是不可修改:
2.png

Index对象是不可修改才能保证Index对象在多个数据结构之间安全共享:
3.png

Index的功能类似一个固定大小的集合:
4.png

下面列出了Index的方法和属性:
5.png
# coding: utf-8

# In[1]:

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

# 构建DataFrame
data = {'province':['Guangdong','Shandong','Henan','Guangdong','Shandong','Henan'],
        'year':[2016,2016,2016,2013,2013,2013],
         'pop':[10999,9946.64,9532.42,10644,9733,9413]}
frame = DataFrame(data)
print (frame)


# In[2]:

# 指定列序列
fr = DataFrame(data,columns=['year','province','pop'])
print(fr)


# In[3]:

frame2 = DataFrame(data,columns=['year','province','pop','growth rate'],
                   index=['one','two','three','four','five','six'])
print(frame2)                                  


# In[4]:

print(frame2.columns)


# In[5]:

print(frame2['province'])


# In[6]:

print(frame.year)


# In[7]:

# ix获取行内容
ro = frame2.ix['three']
print(ro)


# In[8]:

# .loc(基于标签的索引)
print(frame2.loc[['three']])


# In[9]:

# .iloc(位置索引)
A = frame2.iloc[[2,4],frame2.columns.get_indexer(['province','pop'])]
print(A)


# In[10]:

# 通过赋值的方式修改列
frame2['growth rate'] = '--'
print (frame2)


# In[11]:

frame2['growth rate'] = '%20'
print (frame2)


# In[12]:

frame2['growth rate'] = np.arange(6)
print (frame2)


# In[13]:

# 赋值一个Series
val = Series([4,3,2],index=['two','four','six'])
frame2['growth rate'] = val
print(frame2)


# In[14]:

# 为不存在的列赋值
frame2['north'] = frame2.province == 'Shandong'
print(frame2)


# In[15]:

# 使用关键字del删除列
del frame2['north']
print(frame2)


# In[16]:

# 嵌套字典
pop = {'Guangdong':{2016:10999,2013:10644},
        'Shandong':{2016:9946.64,2015:9847.2,2013:9733}}
frame3 = DataFrame(pop)
print (frame3)


# In[17]:

# 对结果转置
print(frame3.T)


# In[18]:

# 指定索引
f = DataFrame(pop,index=[2016,2013,2010])
print(f)


# In[19]:

print(frame3)


# In[20]:

# 由Series组成的字典
pdata = {'Guangdong':frame3['Guangdong'][1:],
         'Shandong':frame3['Shandong'][1:3]}
d = DataFrame(pdata)
print(d)


# In[21]:

# 设置DataFrame的index和columns的name属性
frame3.index.name = 'year';frame3.columns.name = 'province'
print(frame3)


# In[22]:

# 设置values属性
print(frame3.values)


# In[23]:

print(frame2)


# In[24]:

print(frame2.values)


# In[25]:

# 索引对象
obj = Series(range(3),index=['a','b','c'])
index = obj.index
print(index)


# In[26]:

inre = index[1:]
print(inre)


# In[27]:

# Index对象是不可修改:
index[1] = 'd'


# In[28]:

index = pd.Index(np.arange(3))
print(index)


# In[29]:

obj2 = Series([1.5,-2.5,0],index = index)
print(obj2)


# In[30]:

obj2.index is index


# In[31]:

print(frame3)


# In[32]:

'Guangdong' in frame3.columns


# In[33]:

2012 in frame3.index
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 227,488评论 6 531
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,034评论 3 414
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 175,327评论 0 373
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,554评论 1 307
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,337评论 6 404
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 54,883评论 1 321
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,975评论 3 439
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,114评论 0 286
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,625评论 1 332
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,555评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,737评论 1 369
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,244评论 5 355
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,973评论 3 345
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,362评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,615评论 1 280
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,343评论 3 390
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,699评论 2 370

推荐阅读更多精彩内容