泰坦尼克号-数据分析

Kaggle获得了一份泰坦尼克号乘客的数据，来进行分析，哪些因素，会让乘客的生还率更高

提出问题

影响乘客生还的因素很多，这里只对乘客的性别、年龄、乘客等级、这三个因素感兴趣，
看看这四个因素是否会影响乘客的生还率。

1.性别是否会影响生还率
2.年龄是否会影响生还率
3.乘客等级会否会影响乘客率
4.性别和舱位共同对生还率的影响
5.年纪和性别共同对生还率的影响
6.年纪和等级共同对生还率的影响

这里。乘客的性别、年龄、等级、是三个自变量，生还率是因变量

数据加工

导入包

import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
from __future__ import division
from scipy import stats
import seaborn as sns
###首先导入各种模块
###让图片在ipython notebook上直接显示
%matplotlib inline

加载数据

path='/Users/zhongyaode/Desktop/udacity—data/'
df=pd.read_csv(path+'titanic-data.csv')

熟悉数据

先看看数据里有哪些信息，这些信息是怎样的格式

PassengerId:乘客ID
Survived:是否获救，用1和Rescued表示获救,用0或者not saved表示没有获救
Pclass:乘客等级，“1”表示Upper，“2”表示Middle，“3”表示Lower
Name:乘客姓名
Sex:性别
Age:年龄
SibSp:乘客在船上的配偶数量或兄弟姐妹数量）
Parch:乘客在船上的父母或子女数量
Ticket:船票信息
Fare:票价
Cabin:是否住在独立的房间，“1”表示是，“0”为否
embarked:表示乘客上船的码头距离泰坦尼克出发码头的距离，数值越大表示距离越远

#查看前五行数据。了解数据包含的信息，
df.head()

屏幕快照 2017-05-22 下午10.45.35.png

#查看各字段的数据类型
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB

#查看数据的摘要信息
df.describe()

屏幕快照 2017-05-22 下午10.45.47.png

从数据摘要中可以看出。乘客的生还率大约在38%，超越50的乘客在3等级，乘客的平均年龄在30岁左右，普遍比较年轻

数据清洗

处理缺失值

#Embarked有非常少的两个缺失值，这里用'S'填充
df['Embarked']=df['Embarked'].fillna('S')

#处理Age的缺失值，Age是连续数据，这里用平均值填充缺失值
age_mean=df['Age'].mean()
df['Age']=df['Age'].fillna(age_mean)

处理性别数据

#这里把性别数据值字符串不便于计算换成数值，
#用1代表男性，用0代表女性，将性别数值化
def sex_value(Sex):
    if Sex=='male':
        return 1
    else:
        return 0

df['Sex']=df['Sex'].apply(lambda x:sex_value(x))

数据探索

#获取生还乘客的数据
survives_passenger_df=df[df['Survived']==1]

#定义几个常用的方法

#按照xx对乘客进行分组，计算每组的人数
def xx_group_all(df,xx):
    #按照xx对乘客进行分组后 ，每个组的人数
    return df.groupby(xx)['PassengerId'].count()

#计算每个组的生还率
def group_passenger_survived_rate(xx):
    #按xx对乘客进行分组后每个组的人数
    group_all=xx_group_all(df,xx)
    #按xx对乘客进行分组后每个组生还者的人数
    group_survived_value=xx_group_all(survives_passenger_df,xx)
    #按xx对乘客进行分组后，每组生还者的概率
    return group_survived_value/group_all

#输出饼图
def print_pie(group_data,title):
    group_data.plt.pie(title=title,figsize=(6,6),autopct='%.2f%%'\
                      ,startangle=90,legend=True)
    
    
    

#输出柱状图
def print_bar(data,title):
    bar=data.plot.bar(title=title)
    for p in bar.patches:
        bar.annotate('%.2f%%'%(p.get_height()*100),(p.get_x()*1.005\
                     ,p.get_height()*1.005))

性别对生还率的影响

#不同性别对生还率的影响
df_sex1=df['Sex'][df['Survived']==1]
df_sex0=df['Sex'][df['Survived']==0]
plt.hist([df_sex1,df_sex0],
        stacked=True,
        label=['Rescued','not saved'])
plt.xticks([-1,0,1,2],[-1,'F','M',2])
plt.legend()
plt.title('Sex_Survived')

<matplotlib.text.Text at 0x118427d90>

output_18_1.png

看出全体乘客中男性占了大部分，但是生还乘客中女性占了大部分；

得出结论：女性的生还概率比男性的更高

乘客等级对生还率的影响

#不同等级对生还率的影响
df_sex1=df['Pclass'][df['Survived']==1]
df_sex0=df['Pclass'][df['Survived']==0]
plt.hist([df_sex1,df_sex0],
        stacked=True,
        label=['Rescued','not saved'])
plt.xticks([1,2,3],['Upper','Middle','lower'])
plt.legend()
plt.title('Pclass_Survived')

<matplotlib.text.Text at 0x11807edd0>

output_21_1.png

全体乘客中lower等级的乘客超过了一半，生还乘客中upper等级的人最多，
对比各个等级的死亡人数和生还人数：

**可以得出结论：Upper等级生还概率大于Middle、lower的生存概率，等级越好生还概率越好

年龄对生还率的影响

#不同年龄对生还率的影响
df_sex1=df['Age'][df['Survived']==1]
df_sex0=df['Age'][df['Survived']==0]
plt.hist([df_sex1,df_sex0],
        stacked=True,
        label=['Rescued','not saved'])
#plt.xticks([1,2,3],['Upper','Middle','lower'])
plt.legend()
plt.title('title')
plt.title('Age_Survived')

<matplotlib.text.Text at 0x118698690>

output_24_1.png

#不同年龄段对生还率的影响elderly，child,youth
#年龄数据进行处理，0-18为child(少年)，18-40为youth（青年），40-80为elderly（老年）
def age_duan(age):
    if age<=18:
        return 1
    elif age<=40:
        return 2
    else:
        return 3
    
df['Age']=df['Age'].apply(lambda x:age_duan(x))

df_sex1=df['Age'][df['Survived']==1]
df_sex0=df['Age'][df['Survived']==0]
plt.hist([df_sex1,df_sex0],
        stacked=True,
        label=['Rescued','not saved'])
plt.xticks([1,2,3],['child','youth','elderly'])
plt.legend()
plt.title('Age_Survived')

<matplotlib.text.Text at 0x11854e410>

output_26_1.png

全部乘客中大部分人否在30岁左右，而0-10的生还率比其他年龄段都要高

结论：0-10岁的生还率率最高，20-40之间的生还人数最多

多因素分析

性别和乘客等级共同对生还率的影响

print_bar(group_passenger_survived_rate(['Sex','Pclass']),'Sex_Pclass_Survived')

output_30_0.png

可以看到，对生还率的影响性别>乘客等级，其次是乘客等及对生还率的影响是1>2>3等姐

性别和年纪对生还率的影响

dd0=df[['Age','Sex','Pclass']]
dd11=df[['Age','Sex','Pclass']][df['Survived']==1]
c=Pclass_survived_all(dd11,['Age','Sex','Pclass'])
dd0['Sex'].count()

#按Pclass分组计算每组的人数
def Pclass_survived_all(data,Pclass):
    return data.groupby(Pclass)['Sex'].count()

#按Pclass分组计算每组的生还率
def Pclass_survived_probability(data):
    #计算每组生还者的人数
    groupby_survived=Pclass_survived_all(dd11,data)
    #计算每组的总人数
    groupby_survived_all=Pclass_survived_all(dd0,data)
    return groupby_survived/groupby_survived_all

print_bar(Pclass_survived_probability(['Sex','Age']),'Sex_Sge_Survived')

output_36_0.png

可以看出，对生还率影响大的是性别，女性>男性

其次少年的生还率大于青年和老年，青年跟老年的对生还率差不多

年龄和乘客等级共同对生还率的影响

#Age中用1表示少年,用2表示青年,用3表示老年
print_bar(Pclass_survived_probability(['Age','Pclass']),'age_pclass_Survivedd')

output_39_0.png

可以看出乘客的等级对生还率的影响>乘客年龄的影响

年龄越大生还率越小，乘客等级越差生还率越差

结论

通过分析，可以看出对生还率影响最大的因素是乘客等级，其次是性别，最后年龄段也对生化率有影响

分析的局限性

这里并没有从统计上分析得出这些结果的偶然性，所以并不知道这里的结果是真正的差异造成的还是噪音造成的
年龄字段有一些缺失值，因为是连续数据这里用的是全体乘客年龄的均值填充缺失值，这样会缩小年龄之间的差异，也会影响分析结果

结果的相关性

这里的数据并非通过试验得出，所以无法说自变量之间的因果性，只能说她们之间有相关性

参考文章![Microsoft Dynamics AX 技术博
]http://www.cnblogs.com/msdynax/p/6099814.html
[审阅参考意见]https://review.udacity.com/#!/reviews/521378

最后编辑于：2017.12.07 15:17:51

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 210,978评论 6赞 490
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 89,954评论 2赞 384
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 156,623评论 0赞 345
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,324评论 1赞 282
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,390评论 5赞 384
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,741评论 1赞 289
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,892评论 3赞 405
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,655评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,104评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,451评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,569评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,254评论 4赞 328
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,834评论 3赞 312
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,725评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,950评论 1赞 264
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,260评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,446评论 2赞 348