大师兄的数据分析学习笔记(七):探索性数据分析(六)

大师兄的数据分析学习笔记(六):探索性数据分析(五)
大师兄的数据分析学习笔记(八):探索性数据分析(七)

五、复合分析的实现

1. 交叉分析
  • 假设有一张数据表结构如下,点击下载数据
- Age Education EducationField Gender HourlyRate JobInvolvement JobLevel JobSatisfaction
1 41 2 Life Sciences Female 94 3 2 4
2 49 1 Life Sciences Male 61 2 2 2
3 37 2 Other Male 92 2 1 3
4 33 4 Life Sciences Female 56 3 1 3
5 27 1 Medical Male 40 3 1 2
6 32 2 Life Sciences Male 79 3 1 4
7 ... ... ... ... ... ... ... ...
  • 最直观的两个切入点是从列的角度分析从行的角度分析
  • 从列的角度分析:分析每个属性的特点并进行归纳和总结。
  • 从行的角度分析:从案例的角度进行分析,当数据有标注时,以标注为关注点,案例越多,越接近数据整体的质量。
  • 但是如果只是从列的角度分析从行的角度分析,则忽略了数据间和属性间的关联性,可能有信息失真。
  • 交叉分析就是一种分析属性和属性间的关系的方法,得到更多的能反映数据内涵的信息。
  • 交叉分析的含义比较广,涉及到的方法比较多,比如:
  • 任意取两列,使用假设检验的方式判断他们之间是否有联系。
  • 也可以以一个或多个属性为行,另一个或多个属性为列,做成透视表,用来更直观地分析两个属性或几个属性之间的关系。
1.1 假设检验方式
  • 假设我们关注上面一段数据的HourlyRate(小时费率),希望分析不同EducationField之间HourlyRate是否有明显的差异,则可以使用独立T检验方法:
>>>import os
>>>import scipy.stats as ss
>>>import numpy as np
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns

>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>dp_indices = df.groupby("EducationField").indices
>>>dp_keys = list(dp_indices.keys())
>>>n = len(dp_keys)
>>>dp_t_mat = np.zeros([n,n])

>>>for i in range(n):
>>>    for j in range(n):
>>>        p_value = >>>ss.ttest_ind(df[df.EducationField==dp_keys[i]].HourlyRate.values,df[df.EducationField==dp_keys[j]].HourlyRate.values)[1]
>>>        dp_t_mat[i][j] = p_value

>>>sns.heatmap(dp_t_mat,xticklabels=dp_keys,yticklabels=dp_keys)
>>>plt.show()
  • 上图中颜色越深,也就是p值越接近0,以为这两个值越没有关系,反之则认为他们之间越没有差别。
1.2 透视表方式
  • 基于上面的列子,假设我们希望了解不同EducationField和不同的Gender在HourlyRate上的表现:
>>>import os
>>>import numpy as np
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns

>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>piv_tb = pd.pivot_table(df,values="HourlyRate",index=["EducationField"],columns=["Gender"],aggfunc=np.mean)
>>>sns.heatmap(piv_tb)
>>>plt.show()
  • 颜色越深的群体HourlyRate越低,所以我们知道在案例公司中,男性员工的HourlyRate是更高的。
2. 分组分析
  • 分组分析有两种不同的含义:
  1. 将数据进行分组后再进行分析比较;
  2. 根据数据的特征将数据分组,使组内成员尽可能靠拢,组间成员尽可能远离。
  • 如果指令了每一条数据的分组,当未知分组的数据出现的时候,更精确的判断它属于哪个分组的过程叫做分类
  • 如果不知道分组,仅让数据尽可能物以类聚的过程交过聚类
  • 分类聚类是机器学习和数据建模的主要内容。
2.1 数据分组分析
  • 分组分析一般要结合其他分析方法进行配合使用,所以更像是一种辅助手段。
  • 分组分析中最常用的手段是钻取钻取是改变维的层次,变换分析的粒度。
  • 根据钻取方向的不同,可以分为向上钻取向下钻取
  • 向下钻取是展开数据,查看数据细节的过程。
  • 向上钻取是汇总分组数据的过程。
  • 离散属性的分组是比较容易的,而连续属性的分组在分组前要进行离散化
  • 在将连续属性离散化之前,需要先看下数据分布是不是有明显的的可以区分的标志:
  • 比如将数据从小到大排列后,有没有明显的分隔或拐点,如果有则可以直接使用。
  • 如果这个分隔是两个数据之间的差,可以称为一阶差分
  • 如果是拐点,则可以称为二阶差分
  • 由于连续属性的分组要尽可能满足相同的分组比较聚拢,不同的分组尽量离散,所以也可以采用聚类的方式区分:
  • 比如可以用k_means方法进行指定分组数目的连续属性分组。
  • 如果考虑标注,也可以结合不纯度(Gini)的检验指标基尼系数来进行连续数据的离散化分组。
  • 基尼系数定义:Gini(D) = 1 - \sum(\frac{{C_k}^2}{D})^2
  • D 代表标注,比如上面案例中的HourlyRate。
  • C 代表要比较和对比的属性,比如上面案例中的EducationField。
>>>import os
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns

>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>sns.barplot(x="HourlyRate",y="Gender",hue="EducationField",data=df)
>>>plt.show()
  • 从上图中,我们可以看出很多结论,比如女性不同的EducationField的HourlyRate差距是比较大的,而男性则相对比较平衡。
>>>import os
>>>import pandas as pd
>>>import matplotlib.pyplot as plt
>>>import seaborn as sns

>>>df = pd.read_csv(os.path.join(".","data","WA_Fn-UseC_-HR-Employee-Attrition.csv"))
>>>hr = df.HourlyRate

>>>sns.barplot(list(range(len(hr))),hr.sort_values())
>>>plt.show()
  • 也可以通过观察数据进行分组。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,204评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,091评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,548评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,657评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,689评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,554评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,302评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,216评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,661评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,851评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,977评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,697评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,306评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,898评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,019评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,138评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,927评论 2 355

推荐阅读更多精彩内容