数据分析方法

数据分析方法

比较分析法:

任何事物单独来看,只是知道他的一些特征,并得不到什么重要的结论。比如一个男人,我们可以知道他的年龄、身高、体重、薪资等等一系列个人特征信息,但也仅此而已。我们并不知道他年不年轻、高矮胖瘦如何、薪资属于什么水平。要想得到进一步的结论性信息,我们必须与与平均水平作比较作比较才能得出结论。这就是比较得意义。比较是为发现事物自身差距和优势的最为直观简单的方法。

定义:对比两个或以上数据,发现并分析差异,最终从中得出数据差异所代表的含义和规律。

特点:通过比较某个或某些指标,直观的发现事物在某方面的差异与变化,且差异和变化可被准确量化。

分类:静态与动态比较
静态比较:同一时间,相同指标在不同总体间的比较,也叫横向比较,简称横比。例: 北京与上海2018年GDP之间的比较。
常见比较方法:
  • 与目标对比实际完成值与目标值作对比
    是横比。

    • 例:很多公司的销售部门都会在年初制定全年销售目标,待到年终,与销售目标作对比,看是否完成目标。
      同一时间: 全年
      同一指标:全年销售额
      不同总体:实际销售和目标销售
  • 同级地区、单位、部门比较
    属于横比,比较双方必须是同一级别不同总体。

    • 例: 北京和上海2017年常住人口的比较。
      有时候,通过同级总体间的比较,可以发现自身优势和不足,借此制定相应的改进措施,查漏补缺,弥补不足。
  • 个体绝对指标与总体平均指标比较

    • 例:某公司月产量高于整个行业内的平均水平。
    • 例:北京市小李的月收入低于北京市人均月收入
  • 注意:个体必须属于总体,否则比较没有意义。

动态比较:同一总体,相同指标在不同时期间的比较。也叫纵向比较,简称纵比。例如,从2010年以来,北京外来人口的增量有所下降,与2011年相比2012年同 比增加30万左右。
  • 不同时期对比 ,即选择不同时期的指标值进行比较。这方面有两个重要的对比方式,即同比(当前指标值与上一你同期指标值之间的比较)和环比(当前指标值与上一个统计周期指标值之间的比较,通常与上个月比较。也就是说以每个月为统计周期。
  • 活动效果对比
    这里主要说的是促销活动。
对比分析所需对比指标:
  • 总量指标(绝对指标)
  • 相对指标
  • 平均指标
    注:后面对这些指标还会有详细讲解。
对比分析注意事项:
  • 指标的单位和指标的计算方法必须相同,

    • 例:一个60千克重的人无法与60000克的人无法比较体重,尽管他们的体重是相等的,
      也就是说我们必须把单位化为相同,也即统计口径必须保持一致。
  • 对比双方要有可比性,树木和羊、中国和美洲无法比较。

  • 对比的指标通常要保持一致,无论是绝对数指标、相对数指标还是平均数指标或者其他类型指标,对比时,对比双方必须统一。广州的GDP增速无法与深圳的GDP作比较。
    注意:个体绝对指标与平均指标的比较除外。

分组分析法

对比分析法一般是各总体指标间的比较,但每个总体往往是由很对特征组成的,比如一个公司的客户,作为总体它不仅有数量、平均年龄这样的总体指标,还有总体内部各个个体间的差异,比如收入、年龄、个人喜好等等众多个体特征。这就要求我们不仅要对总体的数量特征和数量关系进行分析,而且要深入到总体内部进行分组分析。

定义:根据数据特征,按照一定的指标,把数据划分为不同的群组进行研究,以求揭示各群组间的内在联系和规律。

目的:通常为了对比,按照一定指标把总体中不同性质的个体区分开,把性质相同的个体合并在一起,保证组内个体属性差别最小,组与组之间属性差异最大。

注意:从分组的目的可以看出,分组分析通常与比较分析配套使用。
分组时必须遵循两个原则:穷尽原则和互斥原则
  • 穷尽原则:总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。
  • 互斥原则:在分组指标的限制下,总体中的任何一个单位只能归属与某一个组,而不能同时或可能归属与几个组。
重要的分组参数: 组限、组距与组数
  • 组限:各分组间的分界处被称为组限,一个组的最大值称为组上限,一个组的最小值称为组下限。
  • 组距:组上限与组下限的差叫组距
  • 组数:分组个数
分组的步骤:
  1. 组数确定
    这个完全依赖于数据分析师自己的经验了。有经验的数据分析师会根据数据本身特点给数据划分合理组数。如果组数太少,数据会过于集中;组数太多,数据会过于分散,无论那一种情况,都不利于发现数据分布的规律与特征。
  2. 确定组距
    一组数据中的最大值与最小值的差除以组数。即:(最大值-最小值)/组数
  3. 根据组距划分数据,使其各就各位。

例:某小区居民年龄分组分布图

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data_ar=pd.read_excel(r'data_group_analyse.xlsx',sheet_name=0).values
fig_1,axes_1=plt.subplots(1,1,dpi=100,figsize=(6,6))
axes_1.hist(data_ar,bins=7,color=['c'])
font = {'color':'darkred','weight':'normal','size': 16}
axes_1.set_xlabel('Age',fontdict=font)
axes_1.set_ylabel('Amount',fontdict=font)
plt.show()
image.png

结构分析法

对分析总体内的各部分与总体进行对比的分析方法,即部分数量除以总体数量,换句话说,部分占总体的比例,属于相对指标。一般来讲,那个部分占比多,那个部分在总体中所处的地位也就越高,重要性也就越强,对总体影响也就越大,有时也称对总体贡献度大。注意分析的对象是总体的结构,也就是总体的组成成分
例:
一个家庭全年支出分析。假设某家庭全年支出主要有以下几个部分构成:
家庭生活支出(吃、穿、用、行、就医等等):25600
租房支出:27500
教育支出:28000
旅游娱乐支出:6000
赡养父母支出10000
从上面可以发现该家庭主要支出来自于租房支出和教育支出,二者占总体的比例高达57%。这也侧面说明二者对整个家庭支出有着决定性作用的。
结构分析法的经典应用:

市场占有率=(某种商品销售量/该产品市场销售总量)×100%

平均分析法

通过计算平均数来反映总体在一定时间、地点条件下某一数量特征的一般水平。但由 于其忽略了个体间可能存在的巨大差异,有时候并不一定反映出某一指标的一般水平。因此,很多时候平均分析法是不可取的。

交叉分析法

交叉分析法又称立体分析法,是在纵向分析法和横向分析法的基础上,从交叉、立体的角度出发,由浅入深、由低级到高级的一种分析方法。这种方法虽然复杂,但它弥补了“各自为政”分析方法所带来的偏差

image.png

观察上面的表格,我们发现,如果仅仅进行横向分析,我们显然会认为B公司优于A公司;但是如果同时进行纵向分析,我们就会发现,A公司各项指标都在迅速改善中,而B公司却在不断下滑中,尽管不是十分明显。但长远来看,A公司会更有发展潜力。
很多时候交叉分析可通过交叉分析表来实现;借助于透视表功能可快速生成交叉表格

image.png

综合评价法

随着数据分析的广泛和深入的使用,我们遇到的问题越来越复杂,单靠对单一指标的分析越来越不能解决多指标问题。
人们通过实践总结,逐步形成了一系列运用多个指标对多个参评单位进行评价的方法,称之为综合评价法。
综合评价法的本质是把多指标转化为一个能够反映综合情况的量(比如评分,通常不再是统计指标)来进行分析

步骤:
  1. 确定综合评价指标体系,即用哪些指标来评价一个对象。
  2. 收集数据,若有必要,进行标准化处理,比如归一化,以求消除量纲。
  3. 确定指标体系中各指标权重,以保证评价的科学性与公平性。
  4. 对各个指标的评价数值进行汇总计算,得出综合评价分值。
  5. 凭借分值排名并得出结论。
综合评价法的注意事项:

1.综合指标体系里面的各个指标不是让我们一个接个去评定,而是要同时完成。这种要求是为了消除互为相关的指标带来的错误评价结果。
例如:某公司销售额是其他公司好几倍(销售额指标),但是他销售额与上一年同比下降了一半,(增减幅度指标)且推广投入与上一年相比也增加了好几倍(推广投入指标)。这种情况下,如果我们逐次评价这些指标,而不是同时结合其他关联指标进行同时评价,那么我们很可能会得出极其错误的结论。综合评定第一要义,弄清各指标关系和意义,同时评价。而不能评价那个指标就只盯着那个指标来看。

  1. 重要指标不要忘记加权。
  2. 结果不再是统计指标,仅仅是对评价对象的评分或排名。
  3. 对各指标下的数据要根据实际情况采取数据标准化。
几个重要的知识点:归一化与权重

归一化
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为标量。 在多种计算中都经常用到这种方法。

作用

  1. 消除量纲,在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析, 就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。
  2. 提升模型的收敛速度
    狭长的标量场经过标准化后变得比较圆,这样会大大提升计算的收敛速度。
  • 归一化方法的简单推导:


    image.png
    • 假设a0和ae是起点和终点,a1是线上任意一点,求a1一元表达式:
      image.png
    • 假定a1是给定待归一化的已知数据,那么t就是与数据a1相对应的归一化后的数据:
      image.png
    • 在数据分析中,a0和ae分别代表着一组原始数据中的最小值和最大值,a1 为原始数据中任意一个数值。

权重
权重是指某一因素或指标相对于某一事物的重要程度,其不同于一般的比重,体现的不仅仅是某一因素或指标所占的百分比,强调的是因素或指标的相对重要程度,倾向于贡献度或重要性。通常,权重可通过划分多个层次指标进行判断和计算,常用的方法包括层次分析法、模糊法、模糊层次分析法和专家评价法等

  • 例:权重的确定与综合评价:
import random
data_before_normalize=[round(random.random()*100,1) for i in range(100)]
def func_1(x,min_1,max_1):
    return (x-min_1)/(max_1-min_1)

data_after_normalize=[func_1(x,min(data_before_normalize),max(data_before_normalize)) for x in data_before_normalize ]
data_after_normalize

方法很多,但很多很难操作,这里推荐一种目标优化矩阵表。(简单,而且十分准确)举例说明:
step1
要确定权重,首先要确定指标体系,这也就是综合评价的第一个步骤。这里的例子是人才综合评价,它的指标体系是

image.png

step2:
通过以上指标体系收集数据,数据的收集是通过多个人力资源的专家填写下面表格实现的。表格中的数据都是评价分数,所以无需进行归一化处理。

表格1.多位候选人多指标平均得分

step3:
建立目标优化矩阵,进行权重确定。
(1)目标优化矩阵设计如下:

表格1.多位候选人多指标平均得分

image.png

(2)某位专家填写的真值表表格


image.png

(3)权重计算结果


image.png
image.png

(4)平均权重


image.png

step4
通过加权平均对表格1.进行综合计算。加权平均数通过下列公式进行计算:

加权平均数

把正则化后的权重代入到表格1.计算加权平均值并通过加权平均值进行排名:


image.png

杜邦分析法:

金字塔结构层层分析法,各层存在明确的因果关系,更多时候是严格的函数关系

个人认为,杜邦分析法应用范围尽管比较单一,主要应用财务分析上。但是杜邦分析法的有现求源,层层分析的金字塔结构使数据分析变得层次清晰明了,思路简单工整(不乱发叉)并且整个分析过程十分严谨。

image.png

分析流程

image.png

漏斗图分析法:

漏斗图适用于业务流程比较规范、周期长、环节多的流程分析,通过漏斗各环节业务 数据的比较,能够直观地发现和说明问题所在。在网站分析中,通常用于转化率比较, 它不仅能展示用户从进入网站到实现购买的最终转化率,还可以展示每个步骤的转化 率。

  • 例:网站各环节监控数据分析:


    image.png
image.png

无论是曲线漏斗还是直线漏斗,我们都期望一个边缘陡峭的漏斗。

备注:几个常见的统计学概念:
  • 相对数与绝对数
    绝对数描述客观事物总体在一定时间和地点条件下的总规模,总水平的指标
    相对数是指两个相关事物的比值
    一个城市总人口300万,这个300万是绝对数,一个人体重是另一个人的1.5
    倍,那么这个1.5就是相对数。

  • 百分数百分点
    男生占班级总人数的90%,男生人数比上一年增长7个百分点,百分数表示个体占总体的程度。百分点表示相同事物不同时期的增幅。

  • 频数频率
    频数是绝对数频率是相对数
    频数指某种事物或现象在其所在总体出里出现的次数。比如班级有两个女生,我们就可以说女生出现的频数是2.
    频率(注:不要和物理频率搞混),个体出现的总次数与总体出现的总次数的比值。例如一个数据集A=[1,2,7,2,3,2,4,7], 2出现的频数是3,2的频率是:

3/(|'2'|+|'7'|+|'1'|+|'3'|+|'4'|) = 3/(3+2+1+1+1)=3/8

如果我们假定数据集A中的每个元素单次出现的概率相同(laplace试验假设条件),那么 元素频率可以理解成概率。
例如:A中‘7’元素单次出现的概率为1/8,那么‘7’元素出现的概率为2/8,恰恰是‘7’元素频率

  • 比例比率
    比例是个体数值在总体数值中的占比。比如一个班级10个人,男生4个,女生6个,则男生的所 占比例是4 :10;女生所占比例是6 :10。
    比率是总体中各个体数值之间的对比。男女比率是:4 :6

  • 倍数番数
    倍数是一个数除以另一个数所得的商。比如3是1.5的二倍。番数指的是某种事物总数的二的n次方倍

    image.png

    表示A的总数翻一番,现在A的总数是原来的2倍。
    image.png

    表示A的总数翻两番,现在A的总数是原来的4倍。
    以此类推!!

  • 同比环比
    同比是指与历史同时期进行比较得到的数值环比是指与前一个统计期比较所得到的数值
    这个产品的销售额与上一年相比,同比增长40%;
    这个商品的销售额与上个月相比,环比增长30%。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,743评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,296评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,285评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,485评论 1 283
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,581评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,821评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,960评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,719评论 0 266
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,186评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,516评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,650评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,329评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,936评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,757评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,991评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,370评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,527评论 2 349

推荐阅读更多精彩内容