数据分析(2)--Pandas入门

一、Pandas概述
Pandas 是基于 NumPy 的一个开源 Python 库,它被广泛用于快速分析数据,以及数据清洗和准备等工作;主要有两个主要数据结构Series(1维)和DataFrame(2维)处理金融,统计,社会科学和许多工程领域中的绝大多数典型用例,在Anaconda安装conda install pandas, 或者用自带的包管理工具 pip 来安装pip install pandas

二、Pandas数据结构(series和DataFrame)

  • 数据结构的创建

Series

首先导入两个包:
import numpy as np
import pandas as pd
实例:

data = [1,2,3,4,5]
index = [1,2,3,4,5]
my_series = pd.Series(data)#不设置index
my_series1  = pd.Series(data, index)#设置index
print(my_series, 1)
print(my_series1, 2)

结果:

运行结果

总结:
上面的 data参数可以是任意数据对象,比如字典、列表甚至是 NumPy 数组,而index 参数则是对 data 的索引值,类似字典的 key; index 参数是可省略的,你可以选择不输入这个参数。如果不带 index 参数,Pandas 会自动用默认 index 进行索引,类似数组,索引值是 [0, ..., len(data) - 1]

  • 用Numpy数组对象和Python字典创建Series
    实例:
my_data = [11,12,13,14,15]
my_dict = {'a':11, 'b':12, 'c':13, 'd':14, 'e':15}
np_arry = np.array(my_data) 
print(my_data,'numpy的数组')

my_series = pd.Series(my_data)#用numpy数组创建Series
my_series1  = pd.Series(my_dict)#用字典创建Series
my_series2 = pd.Series(np.arange(5))
print(my_series, 1)
print(my_series1, 2)
print(my_series2,3)

结果:

运行结果

总结
如果你从一个 Python 字典对象创建 Series,Pandas 会自动把字典的键值设置成 Series 的 index,并将对应的 values 放在和索引对应的 data 里。和 NumPy 数组不同,Pandas 的 Series 能存放各种不同类型的对象。

  • Series 里获取数据 访问 Series 里的数据的方式,和 Python 字典基本一样:
    实例:
my_series1  = pd.Series([1,2,3,4,5],index=['a', 'b', 'c', 'd', 'e'])
print(my_series1)
my_series1['b']

结果:

运行结果

  • Series的一些方法和函数:
    my_series.values, my_series.index, isnull()
    实例:
my_series1  = pd.Series([1,2,3,4,5],index=['a', 'b', 'c', 'd', 'e'])

print(my_series1.values,1)
print(my_series1.index,2)
print(my_series1.to_dict,3)

结果:

运行结果

  • 对 Series 进行算术运算操作
    对 Series 的算术运算都是基于 index 进行的。我们可以用加减乘除(+ - * /)这样的运算符对两个 Series 进行运算,Pandas 将会根据索引 index,对响应的数据进行计算,结果将会以浮点数的形式存储,以避免丢失精度。

实例:

data = [1,2,3,4,5]
data2 =[7,8,9,10,12]
index = [1,2,3,4,5]
my_series = pd.Series(data)
my_series1  = pd.Series(data2, index)
print(my_series, 1)
print(my_series1, 2)
my_series1 - my_series#两个做差

结果:

运行结果

DataFrames

Pandas 的 DataFrame(数据表)是一种 2 维数据结构,数据以表格的形式存储,分成若干行和列。通过 DataFrame,你能很方便地处理数据。常见的操作比如选取、替换行或列的数据,还能重组数据表、修改索引、多重筛选等
构建一个 DataFrame 对象的基本语法如下:

  • Series 来构建一个DataFrame:
    实例:
dct = {'Campus':pd.Series(['北京','深圳','上海','广州'], index=['a','b','c','d']),'Num':pd.Series([5000,4000,3000,2000],index=['a','b','c','d']),'Avg':pd.Series(['10K','9.8K','9K','8K'],index=['a','b','c','d'])}
df = pd.DataFrame(dct)
print(df)
#或者
df1 = pd.DataFrame(dct, columns=['Campus','Avg'])
print(df1)

结果:

运行结果

  • 用一个字典来创建 DataFrame:
dct = {'Campus':['北京','深圳','上海','广州'],'Num':[5000,4000,3000,2000],'Avg':['10K','9.8K','9K','8K']}
df = pd.DataFrame(dct)
print(df)
#或者
df1 = pd.DataFrame(dct, columns=['Campus','Avg'])
print(df1)

结果:

image.png

  • 获取 DataFrame 中的列
    实例:
df['Campus']#获取DataFrame中的一列
print(type(df['Campus']))#获取返回的类型

df[['Campus', 'Avg']]#获取DataFrame中的多列
print(type(df[['Campus', 'Avg']]))#获取返回的类型

结果:

运行结果

总结
因为我们只获取一列,所以返回的就是一个 Series。可以用 type() 函数确认返回值的类型,如果获取多个列,那返回的就是一个 DataFrame 类型。

  • 三、DataFrame的IO操作

Pandas 常用的IO操作列表:


IO操作表
  • 复制表格中的数据到剪切板和把数据放入到粘粘板中,数据可以直接粘粘到excel文件中
    df1 = pd.read_clipboard()df1.to_clipboard()
  • 写入和读写csv文件,可以取消index
    df1.to_csv('df1.csv')df1.to_csv('df1.csv', index = False)df2 = pd.read_csv('df1.csv')
  • 转化为json格式和读取json
    df1.to_json()pd.read_json(df1.to_json())
  • 转换为excel格式和读取
    df1.to_excel('df1.xlsx')df1.read_excel('df1.xlsx')
  • df1.head()df1.tail()默认返回前后5行

四、Series和DataFramede Reindexing
首先导入from pandas import Series, DaraFrame
实例:

#添加index
s1 = Series(['A', 'B', 'C'], index=[1,5,10])
print(s1)
dct = {'Campus':['北京','深圳','上海','广州'],'Num':[5000,4000,3000,2000],'Avg':['10K','9.8K','9K','8K']}
df = pd.DataFrame(dct,index=['A','B','C','D'])
print(df)

结果:

运行结果

  • reindex填充值
    实例:
print(s1.reindex(index=[1,5,10,15,20]))#在reindex的时候添加的新的index对应的值并未指定,默认就是NaN
print(df.reindex(index=['A','B','C','D','E'],columns=['Campus','Num','Avg','Year']))
print(s1.reindex(index=[1,5,10,15,20], fill_value=10 ))#为新的index指定固定值10
print(df.reindex(index=['A','B','C','D','E'],columns=['Campus','Num','Avg','Year'],fill_value=10))
#其他填充值的方法:
print(s1.reindex(index=range(15),method='ffill'))

结果:

运行结果

  • 切割和删除(drop)
    当reindex时指定的index少于原有的index的情况:这是一个类似于切割的操作
    实例:
#这是一个类似于切割的操作
print(s1.reindex(index=[1,5]))
print(df.reindex(index=['A','B',],columns=['Num','Avg']))
print('drop删除')
print(s1.drop(5))
print(df.drop('B'))
print(df.drop('Num',axis=1))

结果:

运行结果

总结:
drop()函数的参数axis默认等于0,删除行,当axis=1,删除列,当然还有其他的参数例如how指定删除的模式,thresh多余大于就会被删除

五、Mapping与Replace

  • map
    实例:
df1 = DataFrame({"城市":["北京","上海","广州"], "人口":[1000,2000,1500]},index = ['A','B','C'])
print(df1,'$$$$$$$$$$')
df1['GDP'] = Series([900,1600,3000])# 用Series添加一列
print(df1,'**************')
gdp_map = {"北京":900,"上海":1600,"广州":3000}#使用map添加一列
df1['GDP'] = df1['城市'].map(gdp_map)
print(df1,'&&&&&&&&&&&&&&&&')

结果:

运行结果

map的优势在与不需要关心index的顺序

replace
实例:

s1 = Series(np.arange(5))
print(s1)
print(s1.replace(1,np.nan))#将一个值替换成NaN
print(s1.replace([2,3,4],[20,30,40]))#替换多个值

结果:

运行结果

repalce的优势在于不管替换一个值还是多个值都很方便

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,525评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,203评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,862评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,728评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,743评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,590评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,330评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,244评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,693评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,885评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,001评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,723评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,343评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,919评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,042评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,191评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,955评论 2 355

推荐阅读更多精彩内容