统计学入门级-描述性统计理论

最近加入一个数据挖掘学习小组,热心的群主制定了一个详细的每周学习计划,分为统计学和机器学习两大知识点。学习完要提交作业,以文章输出或者其它方式都行,现在开始第一周的统计学相关知识输出啦,先上一张思维导图。前面部分以文字为主,涉及到的数学公式放在最后。

数据的分布特征与适用的描述统计量总结

一、集中趋势

集中趋势反映各数据向其中心值靠拢或聚集的程度。

㈠ 众数

  • 数据集合中出现次数最多的变量值被称为众数。
  • 众数可能有一个,也可能有多个。如果所有数据出现的次数都一样,那么这组数据没有众数。
  • 高斯分布(正态分布)中,众数位于峰值,和平均数、中位数相同。
  • 一般情况下,只有在数据量比较大的情况下,众数才有意义。

㈡ 中位数

将一组数据按大小顺序排列后,处于中间位置上的变量值就是中位数。计算中位数有两种情况,根据数据个数而定。中位数是一个位置代表值,同样不受极端值的影响。

㈢ 分位数

也许大家都比较熟悉十分位数,百分位数,但对于四分位数就没那么了解了吧。四分位数是一组数据排序后处于25%(下四分位数)和75%(上四分位数)位置上的值。

箱线图就是利用数据中的五个统计量:最小值、上四分位数、中位数、下四分位数与最大值来描述数据的一种图。额,箱线图经常应用在识别检测异常值方面。


㈣ 平均数

平均数也称为均值,是一组数据相加后除以数据个数得到的结果。它是集中趋势的最主要测度值。对未经分组数据计算的平均数称为简单平均数,也就是常说的平均数。每年都会看到说哪个城市的平均薪资出炉了,大PK之类的,不看不知道,一看就扎心!

对分组数据计算的平均数称为加权平均数几何平均数是n个变量值乘积的n次方根,主要用于计算平均比率。

对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下的关系:

  • 如果数据是对称分布,众数=中位数=平均数
  • 如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠。而众数和中位数是位置代表值,不受极值的影响,所以平均数< 中位数< 众数
  • 如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则众数< 中位数 < 平均数
不同分布的众数、中位数和平均数大小关系

均值、中位数、众数优缺点:

二、离散程度

离散程度反映各数据远离其中心值的趋势。

㈠ 数值型数据

① 极差

极差:一组数据的最大值和最小值之差,也称全距,用R表示。极差容易受极端值的影响,不能反映出中间数据的分散情况。

② 平均差

平均差也称平均绝对离差平均偏差,它是各变量值与其平均数离差绝对值的平均数。平均差以平均数为中心,反映了每个数据与平均数的平均差异程度。为了避免离差之和等于零而无法计算平均差这个问题,因此采取了绝对值,以离差的绝对值来表示总离差。

③ 方差

方差是各变量值与其平均数离差平方的平均数。

④ 标准差

标准差是方差的平方根。

★ 注意 ★

  • 方差和标准差能较好地反映出数据的离散程度,是应用最广的离散程度的测度值。
  • 样本方差是用样本数据个数减1后去除离差平方和,其中样本数据个数减1,即n-1称为自由度
  • 与方差不同的是,标准差是有量纲的,它与变量值的计量单位相同,其实际意义比方差清楚。因此,在对实际问题进行分析时会更多地使用标准差。

㈡ 顺序数据

四分位差

四分位差 IQR(四分位距):是上四分位数和下四分位数之差。它反映了中间50%的数据的离散程度,其数值越小,说明中间的数据越集中,反之则越分散。同样不受极值的影响。

㈢ 分类数据

异众比率

异众比率指非众数组的频数占总频数的比例。主要用于衡量众数对一组数据的代表程度。异众比率越大说明众数的代表性越差,越小说明众数的代表性越好。

㈣ 相对离散程度

离散系数

离散系数又称变异系数, 它是一组数据的标准差与其相应的平均数之比。离散系数主要用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度越大,离散系数小,说明数据的离散程度也小。

三、分布的形状

㈠ 偏态系数

偏态是对数据分布对称性的测度。测度偏态的统计量是偏态系数,用SK表示。SK的值越大,表示偏斜的程度越大。

  • 如果一组数据的分布是对称的,离差三次方(具体公式看后面的图)后正负离差可以相互抵消,则SK等于0。
  • 如果分布是非对称的,偏态系数有正有负。SK为正值时,表示正离差值较大,判断为正偏或右偏。
  • SK为负值时,表示负离差值较大,判断为负偏或左偏。

㈡ 峰态系数

峰态是对数据分布平峰或尖峰程度的测度。测度峰态的统计量是峰态系数,用K表示。峰态通常是相对于标准正态分布而言的:

  • 如果一组数据服从标准正态分布,则峰态系数的值为0;
  • 如果峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖,称为平峰分布或尖峰分布。K大于0时为尖峰分布,数据分布更集中;小于0时为扁平分布,数据的分布越分散。

相关的数学公式如下:(手写一遍,加深记忆,哈哈...)

方差、离散系数、偏态系数和峰态系数:

自认为是自己写得很用心的一篇文章啦,嘻嘻!总体来说,上述知识也算消化了大半了,比较不熟悉的是后面的偏态系数和峰态系数,有待后面继续深入探索。下周开始结合Python进行描述性统计实践。在看的小伙伴们如果觉得对你有用的话点个喜欢,发现有不对的地方欢迎留言指正,谢谢~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352