Python数据分析pandas入门！(附数据分析资料)

1、pandas数据结构之DataFrame+

这是小编准备的python数据分析资料！进群：700341555即可获取！

DataFrame生成方式：1、从另一个DataFrame创建。2、从具有二维形状的NumPy数组或数组的复合结构生成。3、使用Series创建。4、从CSV之类文件生成。下面介绍DataFrame的简单用法：

a)：读取文件

代码：

运行结果（只截取部分）：

b)：得到形状数据

代码：

结果：

c)：得到列标题及类型数据

代码：

结果（截取部分）

d)：索引

代码：

结果：

e)：values，非数值数据标位nan

代码：

结果

2、pandas数据结构之Series

pandas的Series数据结构是由不同类型的元素组成的一维数组，该数据结构也具有标签，创建方式有：由Python字典创建；由numpy数组创建；由单个标量值创建。

a)：类型。当选中DataFrame的一列时，得到的是一个Series型的数据。

代码：

结果：

b)：属性。pandas的Series数据结构不仅共享了DataFrame的一些属性，还提供与名称相关的一个属性。

代码：

结果：

<pre style="-webkit-tap-highlight-color: transparent; box-sizing: border-box; font-family: Consolas, Menlo, Courier, monospace; font-size: 16px; white-space: pre-wrap; position: relative; line-height: 1.5; color: rgb(153, 153, 153); margin: 1em 0px; padding: 12px 10px; background: rgb(244, 245, 246); border: 1px solid rgb(232, 232, 232); font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-align: start; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial;">
Series Shape: (202L,)
Series index: RangeIndex(start=0, stop=202, step=1)
Series values: ['Afghanistan' 'Albania' 'Algeria' 'Andorra' 'Angola' 'Antigua and Barbuda'
'Argentina' 'Armenia' 'Australia' 'Austria' 'Azerbaijan' 'Bahamas'
'Bahrain' 'Bangladesh' 'Barbados' 'Belarus' 'Belgium' 'Belize' 'Benin'
'Bermuda' 'Bhutan' 'Bolivia' 'Bosnia and Herzegovina' 'Botswana' 'Brazil'
'Brunei Darussalam' 'Bulgaria' 'Burkina Faso' 'Burundi' 'Cambodia'
'Cameroon' 'Canada' 'Cape Verde' 'Central African Republic' 'Chad' 'Chile'
'China' 'Colombia' 'Comoros' 'Congo, Dem. Rep.' 'Congo, Rep.'
'Cook Islands' 'Costa Rica' "Cote d'Ivoire" 'Croatia' 'Cuba' 'Cyprus'
'Czech Republic' 'Denmark' 'Djibouti' 'Dominica' 'Dominican Republic'
'Ecuador' 'Egypt' 'El Salvador' 'Equatorial Guinea' 'Eritrea' 'Estonia'
'Ethiopia' 'Fiji' 'Finland' 'France' 'French Polynesia' 'Gabon' 'Gambia'
'Georgia' 'Germany' 'Ghana' 'Greece' 'Grenada' 'Guatemala' 'Guinea'
'Guinea-Bissau' 'Guyana' 'Haiti' 'Honduras' 'Hong Kong, China' 'Hungary'
'Iceland' 'India' 'Indonesia' 'Iran (Islamic Republic of)' 'Iraq'
'Ireland' 'Israel' 'Italy' 'Jamaica' 'Japan' 'Jordan' 'Kazakhstan' 'Kenya'
'Kiribati' 'Korea, Dem. Rep.' 'Korea, Rep.' 'Kuwait' 'Kyrgyzstan'
"Lao People's Democratic Republic" 'Latvia' 'Lebanon' 'Lesotho' 'Liberia'
'Libyan Arab Jamahiriya' 'Lithuania' 'Luxembourg' 'Macao, China'
'Macedonia' 'Madagascar' 'Malawi' 'Malaysia' 'Maldives' 'Mali' 'Malta'
'Marshall Islands' 'Mauritania' 'Mauritius' 'Mexico'
'Micronesia (Federated States of)' 'Moldova' 'Monaco' 'Mongolia'
'Montenegro' 'Morocco' 'Mozambique' 'Myanmar' 'Namibia' 'Nauru' 'Nepal'
'Netherlands' 'Netherlands Antilles' 'New Caledonia' 'New Zealand'
'Nicaragua' 'Niger' 'Nigeria' 'Niue' 'Norway' 'Oman' 'Pakistan' 'Palau'
'Panama' 'Papua New Guinea' 'Paraguay' 'Peru' 'Philippines' 'Poland'
'Portugal' 'Puerto Rico' 'Qatar' 'Romania' 'Russia' 'Rwanda'
'Saint Kitts and Nevis' 'Saint Lucia' 'Saint Vincent and the Grenadines'
'Samoa' 'San Marino' 'Sao Tome and Principe' 'Saudi Arabia' 'Senegal'
'Serbia' 'Seychelles' 'Sierra Leone' 'Singapore' 'Slovakia' 'Slovenia'
'Solomon Islands' 'Somalia' 'South Africa' 'Spain' 'Sri Lanka' 'Sudan'
'Suriname' 'Swaziland' 'Sweden' 'Switzerland' 'Syria' 'Taiwan'
'Tajikistan' 'Tanzania' 'Thailand' 'Timor-Leste' 'Togo' 'Tonga'
'Trinidad and Tobago' 'Tunisia' 'Turkey' 'Turkmenistan' 'Tuvalu' 'Uganda'
'Ukraine' 'United Arab Emirates' 'United Kingdom'
'United States of America' 'Uruguay' 'Uzbekistan' 'Vanuatu' 'Venezuela'
'Vietnam' 'West Bank and Gaza' 'Yemen' 'Zambia' 'Zimbabwe']
Series name: Country
</pre>

c)：切片。

代码：

结果：

3、利用Pandas查询数据

a)：head()和tail()函数：

代码：

运行结果：

b)：loc函数

代码：

运行结果：

4、利用Pandas的DataFrame进行统计计算

pandas的DataFrame数据结构为我们提供了若干统计函数，下面给出部分方法及其简要说明。

方法说明describe这个方法返回描述性统计信息count返回非NAN数据项的数量mad计算平均绝对偏差，级类似于标准差的一个有力统计工具median返回中位数，等价于第50百分位数的值min返回最小值max返回最大值mode返回众数（mod），即一组数据中出现次数最多的变量值std返回表示离散度的标准差，即方差的平方根var返回方差skew返回偏差系数（skewness）,该系数表示的是数据分布的对称程度kurt这个方法将返回峰太系数，反映数据分布曲线顶端尖峭或扁平程度代码：

运行结果：

5、利用pandas的DataFrame实现数据聚合

a)：为numpy的随机数生成器指定种子，以确保重复运行程序时生成的数据不会走样。该数据有4列：

1、Weather(一个字符串)；

2、Food(一个字符串)；

3、Price(一个随机浮点数)；

4、Number(1~9之间的一个随机整数)。

代码：

random.rand(n),生成n个0到1间随机数

random.random_integers(low,high=None,size=None) 生成闭区间[low,high]上离散均匀分布的整数值;若high=None，则取值区间变为[1,low]

df=pd.DataFrame({'Weather':['cold','hot','cold','hot','cold','hot','cold'],'Food':['soup','soup','icecream','chocolate','icecream','icecream','soup'],
'Price':10*rand(7),'Number':randint(1,9,size=(7,))})
print df
</pre>

运行结果：

b)：通过Weather列为数据分组，然后遍历各组数据

代码：

运行结果：

c)：变量Weather_group是一种特殊的pandas对象，可由groupby()生成。这个对象为我们提供了聚合函数，下面展示它的用法：

代码：

运行结果：

d)：恰如利用数据库的查询操作那样，也可以针对多列进行分组。

然后就可以用groups属性来了解所生成的数据组，以及每一组包含的行数：

代码：

运行结果：

e)：通过agg方法，可以对数据组施加一系列的numpy函数：

代码：

运行结果：

6、DataFrame的串联与附加操作

a)：数据库中的数据表有内部连接与外部连接两种连接类型。pandas的DataFrame也有类似操作，也可以对数据进行串联和附加。

函数concat()的作用是串联DataFrame，如可以把一个由3行数据组成的DataFrame与其他行数据行串接，以便重建原DataFrame：

代码：

运行结果：

b)：为了追加数据行，可以使用append函数：

代码：

运行结果：

7、连接DataFrames

a)、新建两个CSV文件：dest.csv和tips.csv

代码：

运行结果：

b)：pandas提供的merge函数或DataFrame的join函数实例方法都能实现类似数据库的连接操作数功能。

pandas支持所有的这些连接类型，这里仅介绍内部连接与完全外部连接。

用merge函数按照员工编号进行连接处理，代码如下：

运行结果：

使用join方法执行连接操作，需要使用后缀来指示左操作对象和右操作对象：

运行结果：

用merge()执行内部连接和外部连接时，更显示的方法如下所示：

代码：

运行结果：

8、处理缺失数据

a)：读取数据。

代码：

print df.head()

df=df[['Country',df.columns[6]]][:2] #将原df的Country列和第6列组成新DataFrame，并取前两行
print "New df:
",df
</pre>

运行结果:

b)：pandas会把缺失的数值标记为NaN，表示None。pandas的isnull()函数可以帮我们检查缺失的数据。

代码：

运行结果：

9、处理日期数据

a)：设定从1900年1月1日开始为期42天的时间范围。

代码：

运行结果：

b)：在pandas中，日期区间是有限制的。pandas的时间戳基于numpy datetime64类型，以纳秒为单位，并且用一个64位整数来表示具体数值。因此，日期有效的时间戳介于1677年至2262年。当然，这些年份也不是所有日期都是有效的。这个时间范围的精确中点是1970年1月1日。这样，1677年1月1日就无法用pandas时间戳定义，而1677年9月30日就可以，下面用代码说明：

代码：

运行结果:

b）：使用pandas的Dateoffset函数计算允许的日期范围：

代码：

运行结果：

c):pandas可以把一串字符串转化成日期数据：

代码：

运行结果：

d)：如果一个字符串明显不是日期，无法转化。可以使用参数coerce设置为True强制转化：

代码：

运行结果：

10、数据透析表

a）：数据透析表可以从一个平面文件中指定的行和列中聚合数据，这种聚合操作可以是求和、求平均值，求标准差等运算。

seed(42)
N=7
df=pd.DataFrame({'Weather':['cold','hot','cold','hot','cold','hot','cold'],'Food':['soup','soup','icecream','chocolate','icecream','icecream','soup'],
'Price':10*rand(7),'Number':randint(1,9,size=(7,))})
print "DataFrame:
",df
print pd.pivot_table(df,index='Food',aggfunc=np.sum) #计算各类型Food的统计值
</pre>

运行结果：

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,402评论 6赞 499
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,377评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,483评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,165评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,176评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,146评论 1赞 297
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,032评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,896评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,311评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,536评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,696评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,413评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,008评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,659评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,815评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,698评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,592评论 2赞 353

Python数据分析pandas入门！(附数据分析资料)

random.rand(n),生成n个0到1间随机数

random.random_integers(low,high=None,size=None) 生成闭区间[low,high]上离散均匀分布的整数值;若high=None，则取值区间变为[1,low]

print df.head()

推荐阅读更多精彩内容